7B模型情商比肩GPT-4o腾讯突破开放域RL难题
在没有标准答案的开放式对话中,RL该怎么做?
多轮对话是大模型最典型的开放任务:高频、多轮、强情境依赖,且“好回复”因人而异。
然而,当用RL去优化大模型在真实交互中的“情商”时,RLVR一度陷入“三大困境”:
- 环境困境真实对话是多轮、动态且高度个性化的。如何构建一个既真实、多样,又可供模型自由探索(rollout)的交互环境?
- 奖励困境“高情商”没有标准答案。如何将用户主观满意度转化为稳定、可优化的长期奖励?
- 训练困境如何在LLM上实现稳定、高效的多轮在线RL训练?
腾讯混元数字人团队提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一个方向:
让一个稳定、高质量的用户模拟器,同时扮演“交互环境”和“奖励来源”的双重角色,成功将RLVR引入多轮对话,为大模型在开放域RL上训练提供了有效、可扩展的新解法。
经过RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当。
详情来看文章👇