精彩的论文。 我们需要分别评估推理步骤的知识正确性和推理质量 LLM只给出

JavaEdge聊AIss 2025-06-10 01:18:50

精彩的论文。 我们需要分别评估推理步骤的知识正确性和推理质量 LLM 只给出一个正确答案,但隐藏错误的事实或草率的推理。 本文对每个推理步骤进行评分,揭示哪些句子提供了真正的知识,哪些句子实际上提高了答案概率。 🛑问题 开发人员根据最终准确率来评判模型。测试阶段会隐藏虚假事实和填充逻辑,阻碍有针对性的调试。 🧩拟议框架 答案被拆分成几个小步骤。每个步骤都包含一个事实片段,并在此基础上构建逻辑步骤。两个新的评分标准分别评估这些部分。 📚知识索引 每个事实片段都会根据可信数据库进行核对。知识指数等于通过步骤的百分比。低分表示存在幻觉热点。 📉信息增益 一个较小、冻结的语言模型作为裁判员位于系统之外。 • 它首先读取问题和直到步骤 i - 1 的部分思路链。根据这个上下文,它为正确的最终答案分配一个概率 p_prev。 • 然后它读取步骤 i 并将该概率更新为 p_after。 步骤 i 的信息增益是 log p_after 减去 log p_prev。 意义: • 较大的正值表明该步骤包含的推理明显将答案推向了真理。 • 接近于零的值意味着该步骤是装饰性的;它无助于模型缩小其不确定性。 • 负值表示混乱——这一步骤实际上使预测偏离了正确答案。 通过在整个链条中添加这些收益,该框架突出显示了哪些句子具有真正的逻辑作用,哪些句子是无用的。 因此,论文的框架增加了一个预处理步骤:GPT-4o 将思路链分解为有序的步骤 s1…st。 每一步都包含一个事实片段 k_i 以及由此构建的逻辑步骤。这样拆分可以让后续的检查指向偏离轨道的准确线路。 这种阶梯式结构是两个新指标(知识指数和信息增益)的基础。 🧪实验 两个 7B 主干网络——Qwen-Base 和专注于数学的 DeepSeek-R1——在五个医学和五个数学基准上,采用监督微调或 PPO 强化学习进行训练。该框架会对每个输出进行评分。 📊主要发现 • 微调使医学知识指数提高约 6%,但信息增益下降 39%,显示出冗长但事实丰富的链条。 • PPO 修剪填充物,恢复信息增益并添加 12% 已验证的事实,而无需更多数据。 • 医学准确性遵循知识指数,而数学准确性遵循信息增益,因此两个分数都需要。 🧩总体总结 将知识与推理分离表明,每种技能的表现都有所不同。监督式微调可以提供领域事实并提升准确性,但它会膨胀思维链并降低信息增益。强化学习会修剪错误或冗余的事实,从而提高推理质量,并且通常还能提高事实正确性。独立处理这两个维度可以得出更清晰的诊断结果,并指导针对每个领域的有针对性的训练。编程严选网 人工智能 大模型

0 阅读:0
JavaEdge聊AIss

JavaEdge聊AIss

感谢大家的关注