2025年12月16日,OpenAI正式推出FrontierScience基准,聚焦物理、化学、生物三大学科,以博士级难题实测AI的专家级科学推理能力,而非单纯知识记忆 。核心结论:奥赛赛道模型接近顶尖人类,研究赛道差距仍大,GPT‑5.2以77%(奥赛)/25%(研究) 暂居双赛道第一。 一、核心定位与设计亮点 - 定位:填补传统基准不足,打造“专家级科学推理”的高清标尺,区分“奥赛解题”与“真实科研”能力 。 - 规模:总计700+文本题,含160道黄金组核心题(防数据污染,已开源)。 - 双赛道设计: - 奥赛赛道(Olympiad):100道短答,42位前奥赛奖牌得主(109枚奖牌)设计,难度对标国际奥赛,测约束下精准推理。 - 研究赛道(Research):60个原创子任务,45位博士/教授设计,开放场景无标准答案,10分制评分(≥7分通过) 。 - 评分机制:研究赛道用GPT‑5自动评分,对照专家量规逐项判定,保证客观。 二、关键测试结果 - 模型排名(奥赛赛道):GPT‑5.2 77%、Gemini 3 Pro 76%、Claude 3 Opus 72%、R1 69%。 - 模型排名(研究赛道):GPT‑5.2 25%、Gemini 3 Ultra 22%、Claude 3 Opus 20%,整体距“专家线(70%)”差距明显 。 - 关键发现:思考时间与准确率正相关,充分推理可提升15-20个百分点;奥赛强≠科研强,开放任务仍是AI硬伤。


