[CL]《SignalandNoise:AFrameworkforR

爱生活爱珂珂 2025-08-24 07:22:19

[CL]《Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation》D Heineman, V Hofmann, I Magnusson, Y Gu... [Allen Institute for Artificial Intelligence] (2025)

语言模型评估的关键在于信号与噪声的权衡,影响小模型预测大模型表现的可靠性。本文提出:

• 信号(Signal):衡量基准测试区分好坏模型的能力,表现为模型得分的离散度。

• 噪声(Noise):反映评估过程中因训练步骤随机性带来的得分波动。

• 信噪比(SNR):信号与噪声的比值,高信噪比基准能更准确地预测大模型表现和提升决策准确率。

• 三大干预策略:①筛选高信噪比子任务,提升整体评测质量;②对训练中多个检查点得分取平均,减少波动带来的误差;③采用连续指标bits-per-byte代替离散准确率,增强信号稳定性。

• 大规模实验:基于30个基准、375款模型(60M至32B参数),共9千万评测结果,系统验证信噪比与决策准确率、规模律预测误差的高度相关性。

• 发现:更大规模数据集不一定带来更高信噪比,小而优的评测集往往更有效;部分生成式任务采用BPB指标改善显著。

推荐语言模型开发者优先选用高信噪比基准,结合本文策略减少评测不确定性,提升小规模实验对大规模模型设计的指导价值。

详细阅读👉 arxiv.org/abs/2508.13144

语言模型模型评估信噪比机器学习人工智能

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注