不用RL也能搞定大模型微调只需一条样本做无监督训练强化学习太烧钱？试试只用一条样

量子位看科技 2025-06-01 15:19:13

不用RL也能搞定大模型微调只需一条样本做无监督训练

强化学习太烧钱？试试只用一条样本、训练十步就见效的新方法。

来自Ubiquant的研究团队提出了“熵最小化”（Entropy Minimization，EM）方法，能让大语言模型快速“变聪明”——

不需要标注数据、不用奖励模型，只靠模型自己对输出的置信度进行调整，就能在数学推理任务上显著提升性能。

相比传统RL，EM的优势在于：

- 完全无监督训练，不需要奖励函数；

- 数据极简，只用一条高质量示例；

- 训练极快，10步内就能提升准确率；

- 表现可媲美甚至超越使用成千上万条数据的RL方法。

EM的做法简单粗暴：让模型生成答案时，把预测分布的“熵”压低，也就是逼它只挑最自信的答案。比如一个问题它原本有点犹豫，现在被训练得“非它莫属”，从而提高准确率。

研究还发现，选择哪一条样本非常关键。团队通过观察模型对问题的回答是否稳定来挑样本——不稳定说明“纠结”，最适合训练EM。实际只用一道物理题，就让Qwen2.5-Math-7B模型的数学推理能力暴涨。

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

AI竟然搞不清左右大模型空间感有多差杯子在我左边还是右边？这问题看起来简单，GP

2

大模型真的会反思了西北大学联手谷歌改写推理方式强化学习（RL）模型过去被认为在测

3

不用RL也能搞定大模型微调只需一条样本做无监督训练强化学习太烧钱？试试只用一条样

4

大模型遗忘只是表演吗港理工团队揭示伪遗忘真相你以为大模型“忘了”，其实只是装的。

5

Mamba核心作者新作新注意力机制速度超越DeepSeek推理提速2倍还省内存？

6

AI有了记忆会怎样大模型的记忆系统来了AI不再只是个临时聊天工具，它开始拥有“记

7

AI水印新SOTA南洋理工AI水印新方法图像加水印终于不再“整图一锅炖”了。南洋

8

阿里新方法教AI用好搜索通义团队开源新框架MaskSearch阿里通义实验室发布

9

陶哲轩转发AI数学习题集DeepMind开源数学标准题库DeepMind最近开源

10

AI无意间干翻人类专家AI意外生成超强CUDA内核好家伙，AI意外生成的内核（k

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

目前接近完美的6部手机，有你在用的嘛？

2

这也太瘦了，门禁直接成了摆设

3

华为自研鸿蒙电脑，没有键盘！是一整块可折叠的超大屏幕，然后内置大面积线性马达，通

4

这中控屏幕看起来有点丑

5

一图解读：十款手机配置，各显神通，你更喜欢哪款？

6

姐那锤子是干啥使的，快说！

7

以前这样挂着一部手机那是相当时髦的

8

一个人躺在沙发上玩手机。

9

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

10

国外拆解Mate30，零部件国产率仅为30%，国外拆解Mate30 5G，零部

科技最新文章

1

苹果四代ProMax对比：性能与价格大揭秘！

2

小米16配置曝光，预计9月发布，升级性能和续航芯片：骁龙8Elite2影像：50Mp+50Mp+50

3

【雷军晒童年照】特殊的日子总是有一些回忆，三条杠很明显童年很快乐。

4

雷军晒童年照儿童节被雷总的童年照可爱到，原来大佬早有领导风范，这波回忆杀直接拉满

5

荣耀数字系列“最香”机型！不接受任何反驳。第一款荣耀20Pro（曾经性价比

6

国内3月卖的最好的5款手机：1、iPhone16ProMax2、iPhon

7

一图解读：十款手机配置，各显神通，你更喜欢哪款？

8

不到3000块钱的手机预算，应该没有比OPPOfindX8pro更好的选择

9

红米Turbo4Pro现在最低可以在1444元买到了，历史最低价了，要啥自行车。

10

最新手机处理器档次划分！小米玄戒入局，华为麒麟9020位次明确。