[CL]《EnhancingDiversityinLargeLangua

爱生活爱珂珂 2025-09-09 06:36:02

[CL]《Enhancing Diversity in Large Language Models via Determinantal Point Processes》Y Chen, S Chakraborty, L Wolf, I Ch. Paschalidis... [Boston University & University of Maryland & University College London] (2025)

提升大型语言模型多样性的突破性训练方法——DQO(基于DPPs的质量-多样性优化)

• 现状痛点:主流后训练技术(SFT、RLHF)虽提升质量,却严重削弱模型输出的语义多样性,导致模型“思路单一”、回答趋同,限制了推理、多样化应用及创新潜力。

• 创新核心:利用 Determinantal Point Processes (DPPs) 从语义嵌入角度量化多样性,将一组候选回答的相似性矩阵行列式视作“体积”,鼓励模型生成在高维语义空间中张成最大体积的答案集合,突破传统仅依赖词汇或token级别差异的局限。

• 训练目标:DQO联合最大化质量(奖励)与多样性(行列式的对数),通过引入正则化(加单位矩阵)与留一法梯度估计,稳定训练过程并平衡两者,兼顾输出高质量与语义丰富。

• 实验验证:涵盖推理(GSM8K)、摘要(CNN-dailymail)、故事创作(Common-Gen)和指令跟随任务,DQO在多样性指标(Distinct-n、自评BLEU/ROUGE、GPT-4o-mini评判)上显著优于仅奖励优化的基线,同时保证pass• 超参数调控:多样性权重α和采样数量k均影响整体表现,适度增大均能提升多样性,但超高值可能牺牲单次输出质量;且k值增大提升多样性同时增加计算成本,表现稳定且易于调优。

• 本质启示:

1. 多样性应从语义层面衡量,依赖高质量嵌入而非表面词汇差异,才能真正捕捉人类意图的丰富性。

2. 优化组合作为整体“体积”的行列式比单纯平均距离更能防止“伪多样性”,避免回答聚簇、陷入低维子空间。

3. 质量与多样性的权衡可视为语义向量方向(语义信息)与长度(质量奖励)的平衡,提供直观几何解释辅助超参调整。

• 未来方向:构建更健壮的奖励模型防止“奖励欺骗”,开发自适应多样性度量以适应不同任务需求,进一步突破语义多样性极限。

心得:

1. 训练阶段直接引入多样性目标,远比推理时调节采样策略更根本有效。

2. 语义空间的高维几何结构是挖掘多样性潜力的关键,单纯词汇统计不足以衡量真正的创新。

3. 多样性提升不仅是表现指标的优化,更是促进模型探索新策略、避免思路单一的根本机制。

了解更多🔗 arxiv.org/abs/2509.04784

大型语言模型多样性优化确定性点过程语义嵌入强化学习自然语言处理

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注