阿里开源MaskSearch框架研究背景阿里通义实验室提出MaskSearc

春蕴评趣事 2025-05-31 15:22:06

阿里开源MaskSearch框架

研究背景

阿里通义实验室提出MaskSearch框架,旨在提升大模型的“推理+搜索”能力,解决现有方法泛化性不足的问题。

核心创新

1. 检索增强型掩码预测(RAMP):通过掩码关键信息(如命名实体、本体知识等),迫使模型调用搜索工具进行预测,增强多领域适应能力。

2. 两阶段训练框架:结合预训练(RAMP)与下游任务微调,兼容监督学习(SFT)和强化学习(RL)。

训练方法

1. 监督微调:采用多智能体合成与蒸馏生成高质量思维链数据。

2. 强化学习:动态采样策略优化(DAPO)结合混合奖励(格式/回答奖励),Qwen2.5-72B作为评判模型。

3. 课程学习:按掩码数量分级训练,逐步提升模型推理难度。

实验结果

1. 性能提升:小模型(如1B)在跨域任务(如Bamboogle)表现媲美大模型;RL在领域内任务(如HotpotQA)效果最优。

2. 可扩展性:预训练对小模型增益显著,大模型受数据多样性限制但仍有提升。

关键分析

1. 掩码策略:基于困惑度(PPL)的掩码需与模型能力匹配,过度追求难度可能降低性能。

2. RL奖励函数:基于模型的奖励函数最优,避免回答冗余且稳定性高。

0 阅读:6
春蕴评趣事

春蕴评趣事

感谢大家的关注