中科院阿里手术刀式去噪预训练数据细化新范式
在噪声污染严重影响预训练数据的质量时,如何能够高效且精细地精炼数据?
中科院计算所与阿里Qwen等团队联合提出RefineX,一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。
其核心优势在于:将专家指导的高质量端到端优化结果,蒸馏为极简的基于编辑操作的删除程序。
通过这一高精度蒸馏流程,可以训练出高效可靠的优化模型(refine model),系统地优化语料中的每个实例。
在高效精炼数据的同时,可靠地保留原始文本的多样性和自然性。
用RefineX净化后的20B token数据训练750M模型时,其在常识推理、科学问答等10项任务的平均得分达到44.7,较原始数据提升7.2%。
详细请看👇