SFT与RL训练新发现
研究背景与问题
学界普遍采用「监督微调(SFT)+强化学习(RL)」两阶段训练范式提升大语言模型推理能力,但该范式在视觉-语言模型(LVLM)中的适用性存疑。研究聚焦两个核心问题:1)SFT与RL在多模态推理中的作用差异;2)两阶段训练是否必要。
关键发现
1. SFT的局限性:SFT虽提升标准任务表现,但可能诱发「伪推理路径」,导致复杂推理能力下降(7B模型性能降47%)。
2. RL的优势:纯RL训练能促进真实推理行为,避免SFT对探索空间的限制,模型响应更简洁有效。
3. 训练范式对比:SFT+RL组合导致性能下降12.7%,模型规模影响微弱;纯RL方案在Open LMM榜单刷新纪录(1.8%优势)。
混合奖励GRPO方案
1. 奖励设计:融合感知与认知奖励,包含规则类(数学/选择题等)和开放类(奖励模型评分)共5种子函数。
2. 实验结论:SFT与GRPO不兼容,会削弱指令跟随能力(性能降8.9%);小规模SFT数据仍损害GRPO效果。
总结与启示
推理能力更依赖RL内生的探索学习,SFT的模仿行为可能限制模型上限。直接GRPO训练在LVLM中表现更优,为多模态推理训练提供新方向。