不用RL也能搞定大模型微调只需一条样本做无监督训练
强化学习太烧钱?试试只用一条样本、训练十步就见效的新方法。
来自Ubiquant的研究团队提出了“熵最小化”(Entropy Minimization,EM)方法,能让大语言模型快速“变聪明”——
不需要标注数据、不用奖励模型,只靠模型自己对输出的置信度进行调整,就能在数学推理任务上显著提升性能。
相比传统RL,EM的优势在于:
- 完全无监督训练,不需要奖励函数;
- 数据极简,只用一条高质量示例;
- 训练极快,10步内就能提升准确率;
- 表现可媲美甚至超越使用成千上万条数据的RL方法。
EM的做法简单粗暴:让模型生成答案时,把预测分布的“熵”压低,也就是逼它只挑最自信的答案。比如一个问题它原本有点犹豫,现在被训练得“非它莫属”,从而提高准确率。
研究还发现,选择哪一条样本非常关键。团队通过观察模型对问题的回答是否稳定来挑样本——不稳定说明“纠结”,最适合训练EM。实际只用一道物理题,就让Qwen2.5-Math-7B模型的数学推理能力暴涨。