不用RL也能搞定大模型微调只需一条样本做无监督训练强化学习太烧钱?试试只用一条样

量子位看科技 2025-06-01 15:19:13

不用RL也能搞定大模型微调只需一条样本做无监督训练

强化学习太烧钱?试试只用一条样本、训练十步就见效的新方法。

来自Ubiquant的研究团队提出了“熵最小化”(Entropy Minimization,EM)方法,能让大语言模型快速“变聪明”——

不需要标注数据、不用奖励模型,只靠模型自己对输出的置信度进行调整,就能在数学推理任务上显著提升性能。

相比传统RL,EM的优势在于:

- 完全无监督训练,不需要奖励函数;

- 数据极简,只用一条高质量示例;

- 训练极快,10步内就能提升准确率;

- 表现可媲美甚至超越使用成千上万条数据的RL方法。

EM的做法简单粗暴:让模型生成答案时,把预测分布的“熵”压低,也就是逼它只挑最自信的答案。比如一个问题它原本有点犹豫,现在被训练得“非它莫属”,从而提高准确率。

研究还发现,选择哪一条样本非常关键。团队通过观察模型对问题的回答是否稳定来挑样本——不稳定说明“纠结”,最适合训练EM。实际只用一道物理题,就让Qwen2.5-Math-7B模型的数学推理能力暴涨。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注