LLM学会左右互搏,基础模型或将迎来群体革新


金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器学习模型,比如前些年风靡一时的生成对抗网络(GAN)。

进入现今的大模型(LLM)时代,研究者发现了左右互搏的精妙用法。最近,加利福尼亚大学洛杉矶分校的顾全全团队提出了一种名为SPIN(Self-Play Fine-Tuning)的新方法。这种方法能够在不使用额外的微调数据的情况下,仅通过自我博弈来大幅提升LLM的能力。顾全全教授表示:“授之以鱼不如授之以渔:通过自我博弈微调(SPIN)可以使所有大模型从弱到强得到提升!”

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这项研究也在社交网络引起了不少讨论,比如宾夕法尼亚大学沃顿商学院的 Ethan Mollick 教授就表示:「更多证据表明,AI 不会受限于可供其训练的人类创造内容的数量。这篇论文再次表明使用 AI 创造的数据训练 AI 可以比仅使用人类创造的数据获得更高质量的结果。」

此外,还有许多研究人员对这一方法感到兴奋,并对 2025 年在相关方向的进展表现出极大期待。顾全全教授向机器之心表示:「如果你希望训练一个超越 GPT-4 的大模型,这是一项绝对值得尝试的技术。」

论文地址为https://arxiv.org/pdf/2401.01335.pdf。

大型语言模型(LLM)开启了通用人工智能(AGI)的大突破时代,它能以非凡的能力解决需要复杂推理和专业知识的广泛任务。LLM 擅长的领域包括数学推理 / 问题求解、代码生成 / 编程、文本生成、摘要和创意写作等等。

LLM 的一大关键进步是训练之后的对齐过程,这能让模型的行为更符合需求,但这个过程却往往依赖于成本高昂的人类标注数据。经典的对齐方法包括基于人类演示的监督式微调(SFT)和基于人类偏好反馈的强化学习(RLHF)。

而这些对齐方法全都需要大量人类标注数据。因此,为了精简对齐过程,研究人员希望开发出能有效利用人类数据的微调方法。

这也是这项研究的目标:开发出新的微调方法,使得微调后的模型可以继续变强,而且这个微调过程无需使用微调数据集之外的人类标注数据。

实际上,机器学习社区一直都很关注如何在不使用额外训练数据的情况下将弱模型提升成强模型,这方面的研究甚至可以追溯至 boosting 算法。也有研究表明,自训练算法可以在混合模型中将弱学习器转换成强学习器,而无需额外的标注数据。但是,要在没有外部引导的前提下自动提升 LLM 的能力既复杂又少有研究。这就引出了以下问题:

我们能让 LLM 在没有额外人类标注数据的前提下实现自我提升吗?

方法

从技术细节上讲,我们可以将来自之前迭代的 LLM 记为 pθt,其对于人类标注的 SFT 数据集中的 prompt x,可以生成响应 y'。接下来的目标是找到一个新的 LLM pθ{t+1},使其有能力区分 pθt 生成的响应 y' 和人类给出的响应 y。

这个过程可被看作是一个两个玩家的博弈过程:主玩家就是新 LLM pθ{t+1},其目标是区分对手玩家 pθt 的响应以及人类生成的响应;对手玩家就是旧 LLM pθt,其任务是生成与人类标注的 SFT 数据集尽可能相近的响应。

新 LLM pθ{t+1} 是通过微调旧 LLM pθt 得到的,训练过程是让新的 LLM pθ{t+1} 有很好的能力区分 pθt 生成的响应 y' 和人类给出的响应 y。而这个训练不仅让新的 LLM pθ{t+1} 作为一个主玩家达到很好的区分能力,而且让新的 LLM pθ{t+1} 作为一个对手玩家在下一轮迭代中,给出更对齐 SFT 数据集的响应。在下一轮迭代中,新获得的 LLM pθ{t+1} 会变成响应生成的对手玩家。


这个自我博弈的过程的目标是让 LLM 最终收敛到 pθ∗=p_data,使得可能存在的最强大的 LLM 生成的响应不再与其之前版本和人类生成的响应不同。

有趣的是,这个新方法与 Rafailov et al. 近期提出的直接偏好优化(DPO)方法表现出了相似性,但新方法的明显区别是采用了自我博弈机制。也因此,这个新方法就有了一大显著优势:无需额外的人类偏好数据。

此外,我们也能明显看出这种新方法与生成对抗网络(GAN)的相似性,只不过新方法中的判别器(主玩家)和生成器(对手)是同一个 LLM 在相邻两次迭代后的实例。

该团队还对这个新方法进行了理论证明,结果表明:当且仅当 LLM 的分布等于目标数据分布时,即 p_θ_t=p_data 时,该方法可以收敛。

实验

在实验中,该团队使用了一个基于 Mistral-7B 微调后的 LLM 实例 zephyr-7b-sft-full。

结果表明,新方法能在连续迭代中持续提升 zephyr-7b-sft-full,而作为对比,当在 SFT 数据集 Ultrachat200k 上使用 SFT 方法持续训练时,评估分数则会达到性能瓶颈,甚至出现下降情况。

更有趣的是,新方法使用的数据集只是 Ultrachat200k 数据集的一个 50k 大小的子集!

新方法 SPIN 还有另一项成就:可有效地将 HuggingFace Open LLM 排行榜中基础模型 zephyr-7b-sft-full 的平均分数从 58.14 提升至 63.16,其中在 GSM8k 和 TruthfulQA 上能有超过 10% 的惊人提升,在 MT-Bench 上也可从 5.94 提升至 6.78。

值得注意的是,在 Open LLM 排行榜上,使用 SPIN 微调的模型甚至能与再使用额外 62k 偏好数据集训练的模型媲美。

结论

通过充分利用人类标注数据,SPIN 让大模型靠自我博弈从弱变强。与基于人类偏好反馈的强化学习(RLHF)相比,SPIN 使 LLM 能够在没有额外人类反馈或者更强的 LLM 反馈的情况下自我改进。在包含 HuggingFace Open LLM 排行榜的多个基准数据集实验上,SPIN 显著且稳定地提高了 LLM 的性能,甚至超过了使用额外 AI 反馈训练的模型。

我们期待 SPIN 可以助力大模型的进化和提升,并最终实现超越人类水平的人工智能。


# 迭代  # 加利福尼亚  # 让新  # 作为一个  # 情况下  # 宾夕法尼亚大学  # 一大  # 也能  # 很好  # ai  # 的是  # agi  # prompt  # gpt  # https  # boosting  # 人工智能  # 算法 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Midjourney怎么用一键生成漫画_Midjourney漫画生成方法【攻略】  利用 DeepSeek 辅助进行编译器原理课程学习  夸克AI怎样搜索医疗健康_夸克AI医疗频道与症状自查【技巧】  AI心理测试生成工具有哪些_一键生成趣味测评的AI工具推荐  5分钟教你用AI生成婚礼流程策划案,备婚新人必备  2025年QA工程师必备:五款AI自动化测试工具深度解析  如何利用豆包 AI 快速查询当地生活服务资讯  tofai登录入口官网 tofai网页版地址链接  零成本AI营销机构:2025年自动化运营,颠覆传统营销模式  AI项目管理软件如何利用自然语言处理?全面解析  快速生成PPT工具怎么用_快速生成PPT工具使用方法详细指南【教程】  DeepSeek AI:AI通用谜题解题器,解题思路全解析  百度输入法ai组件怎么删除 百度输入法ai组件移除工具  Claude 4.5 深度解析: Coding, VS Code & AI Agent 新纪元  豆包Ai在线使用入口_豆包Ai官方网站最新登录地址  宗教领袖影响力反思:警惕精神控制与信仰危机  N8N 自动化教程:HR 简历智能分析系统搭建指南  AI赋能软件测试:自动化、智能化与未来趋势  改善面部不对称:简单有效的肌肉平衡技巧  构建卓越的AI驱动测试自动化框架:QA工程师指南  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  AI驱动的合同审查:Adobe Acrobat AI助手提升效率与准确性  超频爱好者盛宴:液氮超频Xeon 28核处理器  Spin Rewriter AI:终极内容创作与SEO优化指南  AI写作鱼如何一键生成情书_AI写作鱼情书生成与浪漫度调整【步骤】  解密AI时尚摄影:打造完美形象的终极指南  Character AI深度解析:功能、用户反馈与替代方案全攻略  SmartEbook AI:下一代电子书创作工具,轻松实现被动收入  怎么用AI帮你解读复杂的学术论文?快速抓住核心论点和证据  ChatGPT一键生成PPT怎么加目录_ChatGPTPPT目录添加【步骤】  免费高效获客!ChatGPT助你快速生成潜在客户名单  AI UGC生成器深度测评:四大工具横向对比分析  斑马AI怎样设置专注模式_斑马AI专注时段与干扰屏蔽【指南】  美食ASMR:感官盛宴与解压体验  AI时代生存指南:掌握软实力,成为不可替代的人  ClaudePC端怎么设快捷键_ClaudePC端快捷键设置【方法】  ChatGPT助力QA测试:提升效率与质量的终极指南  AI Excel公式生成工具有哪些_一键生成函数公式的AI工具推荐  Semrush AI标题生成器:免费提升SEO和内容创作效率  AI写作工具检测:学生如何避免学术不端行为  如何用AI帮你快速理解API文档?开发者必备高效技巧  如何配置 DeepSeek 以支持企业级私有化部署  教你用AI把照片变成动漫风格,3个简单步骤刷爆朋友圈  智行ai抢票如何查看抢票进度_智行ai抢票进度查询与状态解读【实操】  微信AI数字人能否识别语音消息_微信AI数字人语音识别与回复设置【教程】  图像分割技术详解:定义、类型、技术与应用  OpenAI Sora 2:AI视频生成新纪元  SteosVoice:电报语音克隆终极教程  AI测试面试准备:提升你的面试技巧与知识储备  AI学习秘籍:3个高效黑科技,解锁智能学习新时代 

 2024-01-08

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.