斯奇拉姆排序 - 基于公平性的排序学习


在 2025 年举行的国际学术会议 AIBT 2025 上,Ratidar Technologies LLC 发表了一篇基于公平性的排序学习算法,并荣获该会议的最佳论文报告奖。该算法名为斯奇拉姆排序 (Skellam Rank),充分利用了统计学原理,结合了Pairwise Ranking和矩阵分解技术,以解决推荐系统中的准确率和公平性问题。由于推荐系统中创新的排序学习算法很少,斯奇拉姆排序算法表现出色,因此在会议上获得了研究奖项。下面将介绍斯奇拉姆算法的基本原理:

我们首先回忆一下泊松分布:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

泊松分布的参数  的计算公式如下:

两个泊松变量的差值是斯奇拉姆分布:

在公式中,我们有:

函数  叫做第一类贝塞尔函数。

有了这些最基本的统计学中的概念,下面让我们来构建一个 Pairwise Ranking 的排序学习推荐系统吧!

我们首先认为用户给物品的打分是个泊松分布的概念。也就是说,用户物品评分值服从以下概率分布:

之所以我们可以把用户给物品打分的过程描述为泊松过程,是因为用户物品评分存在马太效应,也就是说评分越高的用户,打分的人越多,以至于我们可以用某个物品的评分的人的数量来近似该物品的评分的分布。给某个物品打分的人数服从什么随机过程呢?自然而然的,我们就会想到泊松过程。因为用户给物品打分的概率和该物品有多少人打分的概率相近,我们自然也就可以用泊松过程来近似用户给物品打分的这一过程了。

我们下面把泊松过程的参数用样本数据的统计量替代,得到下面的公式:

我们下面定义 Pariwise Ranking 的最大似然函数公式。众所周知,所谓 Pairwise Ranking 指的是我们利用最大似然函数求解模型参数,使得模型能够最大程度保持数据样本中已知的排序对的关系:

因为公式中的 R 是泊松分布,所以它们的差值,就是斯奇拉姆分布,也就是说:

其中变量 E 是按照如下方式定义的:

我们把斯奇拉姆分布的公式带入最大似然函数的损失函数 L ,得到了如下公式:

在变量 E 中出现的用户评分值 R ,我们利用矩阵分解的方式进行求解。将矩阵分解中的参数用户特征向量 U 和物品特征向量 V 作为待求解变量:

这里我们先回顾一下矩阵分解的概念。矩阵分解的概念是在 2010 年左右的时候提出的推荐系统算法,该算法可以说是历史上最成功的推荐系统算法之一。时至今日,仍然有大量的推荐系统公司利用矩阵分解算法作为线上系统的 baseline,而时下大热的经典推荐算法 DeepFM 中的重要组件 Factorization Machine,也是推荐系统算法中的矩阵分解算法后续的改进版本,和矩阵分解有千丝万缕的联系。矩阵分解算法有个里程碑论文,是 2007 年的 Probabilistic Matrix Factorization,作者利用统计学习模型对矩阵分解这个线性代数中的概念重新建模,使得矩阵分解第一次有了扎实的数学理论基础。

矩阵分解的基本概念,是利用向量的点乘,在对用户评分矩阵进行降维的同时高效的预测未知的用户评分。矩阵分解的损失函数如下:

矩阵分解算法有许多的变种,比如上海交大提出的 SVDFeature,把向量 U 和 V 用线性组合的形式进行建模,使得矩阵分解的问题变成了特征工程的问题。SVDFeature 也是矩阵分解领域的里程碑论文。矩阵分解可以被应用在 Pairwise Ranking 中用以取代未知的用户评分,从而达到建模的目的,经典的应用案例包括 Bayesian Pairwise Ranking 中的 BPR-MF 算法,而斯奇拉姆排序算法就是借鉴了同样的思路。

我们用随机梯度下降对斯奇拉姆排序算法进行求解。因为随机梯度下降在求解过程中,可以对损失函数进行大量的简化从而达到求解的目的,我们的损失函数变成了下面的公式:

利用随机梯度下降对未知参数 U 和 V 进行求解,我们得到了迭代公式如下:

其中:

另外有:

其中:

对于未知参数变量 V 的求解类似,我们有如下公式:

其中:

另外有:

其中:

整个算法的流程,我们用如下的伪代码进行展示:

为了验证算法的有效性,论文作者在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 上进行了测试。第一个数据集包含了 6040 个用户和 3706 部电影的评分,整个评分数据集大概有 100 万评分数据,是推荐系统领域最知名的评分数据集合之一。第二个数据集合来自斯洛文尼亚,是网上不多见的基于场景的推荐系统数据集合。该数据集合包含了 121 个用户和 1232 部电影的评分。作者将斯奇拉姆排序和另外 9 种推荐系统算法进行了对比,主要测评指标为 MAE (Mean Absolute Error,用来测试准确性)和 Degree of Matthew Effect (主要用来测试公平性):

图 1. MovieLens 1 Million Dataset (MAE 指标)

图 2. MovieLens 1 Million Dataset (Degree of Matthew Effect 指标)

通过图 1 和图 2 ,我们发现斯奇拉姆排序在 MAE 这一项指标上表现优异,但在 Grid Search 的整个实验过程中,无法一直保证性能优于其他算法。但是在图 2 中,我们发现斯奇拉姆排序在公平性指标上一骑绝尘,遥遥领先于另外 9 种推荐系统算法。

下面我们看一下该算法在 LDOS-CoMoDa 数据集合上的表现:

图 3. LDOS-CoMoDa Dataset (MAE 指标)

图 4. LDOS-CoMoDa Dataset (Degree of Matthew Effect 指标)

通过图3和图4,我们了解到斯奇拉姆排序在公平性指标上一骑绝尘,在准确性指标上表现优异。结论和上一个实验类似。

斯奇拉姆排序结合了泊松分布、矩阵分解和 Pairwise Ranking 等概念,是一个不可多得的推荐系统排序学习算法。在技术领域,掌握排序学习技术的人只占掌握深度学习的人的人数的1/6,因此排序学习属于稀缺技术。而能够在推荐系统领域发明原创性排序学习的人才更是少之又少。排序学习算法,把人们从评分预测的狭隘视角中解放了出来,让人们意识到最重要的事情是顺序,而不是分值。基于公平性的排序学习,目前在信息检索领域中大火,特别是 SIGIR 等顶会,非常欢迎基于公平性的推荐系统的论文,希望能够得到读者们的关注。

作者简介

汪昊,前 Funplus 人工智能实验室负责人。曾在 ThoughtWorks、豆瓣、百度、新浪等公司担任技术和技术高管职务。在互联网公司和金融科技、游戏等公司任职 12 年,对于人工智能、计算机图形学和区块链等领域有着深刻的见解和丰富的经验。在国际学术会议和期刊发表论文 42 篇,获得IEEE SMI 2008 最佳论文奖、ICBDT 2025 / IEEE ICISCAE 2025 / AIBT 2025 最佳论文报告奖。


# 区块链  # Error  # 算法  # 人工智能  # 拉姆  # 的人  # 这一  # 可以用  # 学术会议  # 上一  # 也就是说  # 马太  # 斯洛文尼亚  # 进行了 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI驱动的医学影像器官分割与3D可视化:临床应用的未来  教你用AI一键为代码添加注释,小白也能读懂复杂程序  AI写作避坑指南:小说家应避免的AI使用与创作技巧  教你用AI一键去除图片水印,操作简单效果惊人  提升阅读理解:策略、技巧和有效方法全面指南  使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio  Google AI 在教育领域个性化学习路径的构建  AI QA 工程:通往人工智能质量保障工程师的职业道路  InZOI游戏评测:AI驱动的模拟人生,是创新还是噱头?  Thesis AI:一键生成高质量学术论文的秘密武器  ClaudePC端怎么设主题色_ClaudePC端主题设置步骤【教程】  深度解析Coldplay酷玩乐队《Viva la Vida》的音乐内涵  解读 Karan Aujla:如何用音乐连接全球与故土?  电脑百度ai助手怎么关闭 电脑版百度ai助手移除教程  豆包AI怎么关闭消息推送_通知与提醒管理设置教程  Amazon Rekognition: 图像与视频分析的强大AI工具  教你用AI帮你写出有说服力的众筹项目文案  Vidu AI:使用Q1模型轻松创建电影级短片  135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】  Codeforces Pair Programming Problem: C 解题思路  Claude怎么用新功能代码辅助_Claude代码辅助使用攻略【方法】  豆包AI怎样生成PPT目录页_豆包AI目录自动生成与页码添加【指南】  Claude怎么用新功能会议纪要_Claude纪要生成使用【步骤】  VideoGen教程:AI视频生成器,无需拍摄快速制作视频  即梦ai怎样生成插画作品_即梦ai插画生成入口与风格选择【教程】  ChatGPT新手指南:大学生如何高效利用AI工具?  飞猪旅行AI如何预约抢票_飞猪AI抢票预约与加速包使用【攻略】  ChatGPT图像生成器完全指南:文化影响、伦理挑战与商业变革  AI赋能:五款颠覆性工具助你在线赚钱  AI营销赋能本地服务:从Facebook广告到客户终身价值提升策略  AI音频增强和视频背景替换终极指南  ChatGPT 角色扮演实战:提升沟通技巧与问题解决能力  动态规划解题:攀登楼梯的独特方法与技巧  找不到百度AI助手入口 最新官网登录入口  AI测试面试准备:提升你的面试技巧与知识储备  Midjourney怎样加风格词调质感_Midjourney风格词技巧【指南】  批改网ai检测工具如何导出检测报告_批改网ai检测工具报告导出格式【步骤】  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  MediCa AI:AI赋能的智能医疗保健平台全面解析  FundView贷款管理:贷款汇总生成器提升效率  Midjourney怎么用一键生成漫画_Midjourney漫画生成方法【攻略】  Comet浏览器:使用ChatGPT增强您的搜索体验  Pearson AI学习工具:高效提升你的数学学习效率  在线奇幻名称生成器:打造独一无二的角色名  LeetCode算法:最长公共前缀问题全面解析  快速生成PPT工具怎么用_快速生成PPT工具使用方法详细指南【教程】  AI女友:时尚穿搭与美丽瞬间的完美融合  AI虚拟女友:终极浪漫伴侣还是数字陷阱?  人脸识别的伦理困境:Massive Attack的演出引发的思考  轻松制作圣经视频:无需露脸也能赚钱的教程 

 2024-02-07

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.