2025年12月16日，OpenAI正式推出FrontierScience基准，

未言近韧劲 2025-12-19 13:30:31

2025年12月16日，OpenAI正式推出FrontierScience基准，聚焦物理、化学、生物三大学科，以博士级难题实测AI的专家级科学推理能力，而非单纯知识记忆。核心结论：奥赛赛道模型接近顶尖人类，研究赛道差距仍大，GPT‑5.2以77%（奥赛）/25%（研究）暂居双赛道第一。一、核心定位与设计亮点 - 定位：填补传统基准不足，打造“专家级科学推理”的高清标尺，区分“奥赛解题”与“真实科研”能力。 - 规模：总计700+文本题，含160道黄金组核心题（防数据污染，已开源）。 - 双赛道设计： - 奥赛赛道（Olympiad）：100道短答，42位前奥赛奖牌得主（109枚奖牌）设计，难度对标国际奥赛，测约束下精准推理。 - 研究赛道（Research）：60个原创子任务，45位博士/教授设计，开放场景无标准答案，10分制评分（≥7分通过）。 - 评分机制：研究赛道用GPT‑5自动评分，对照专家量规逐项判定，保证客观。二、关键测试结果 - 模型排名（奥赛赛道）：GPT‑5.2 77%、Gemini 3 Pro 76%、Claude 3 Opus 72%、R1 69%。 - 模型排名（研究赛道）：GPT‑5.2 25%、Gemini 3 Ultra 22%、Claude 3 Opus 20%，整体距“专家线（70%）”差距明显。 - 关键发现：思考时间与准确率正相关，充分推理可提升15-20个百分点；奥赛强≠科研强，开放任务仍是AI硬伤。

0 阅读：0

未言近韧劲

感谢大家的关注

作者最新文章

1

美国德州丹顿市一场暴雨导致CoreWeave为OpenAI建设的大型AI数据中心

2

危险的信号：“日本官员声称“日本应当拥有核武器”！真正值得警惕的不是“日本现在

3

全球大模型领域的竞争可以用“双雄并立、开源崛起、生态绞杀”来概括。现在的局面

4

虽然有消息称阿里、字节跳动等大厂有采购意向，但实际上交易并未实质性落地：审批

5

大模型正从“会聊天的AI”变成“会干活的队长”。过去AI只能帮你写段文案，现在它

6

壁仞科技最终改道港股而非A股，核心原因可以归结为“时间成本、股权结构、盈利门槛”

7

2025年12月16日，OpenAI正式推出FrontierScience基准，

8

出山时，夕阳正把云边烧成淡金。我回头，山谷无言，却已将所有答案放进了风里。我携一

9

大模型训练：效率革命的三大突破 1. 算法优化：DeepSeek-V3通过混合精

10

设计端革命：AI驱动的EDA工具传统芯片设计需要工程师手动调整数十亿晶体管的布

热门分类

财经TOP

1

12月8日，全天封板复盘。

2

12月16日游资龙虎榜

3

12月10日游资龙虎榜

4

茅台这次这招，确实够狠，也够绝。直接把水龙头拧紧，今年额外的货一滴不给，明年就死

5

12月19日，全天封板复盘。

6

6大银行的消息一出来，我就赶紧把存银行的30万取出来，不是因为急用钱，而是因

7

1499的茅台没人敢买了。在茅台机场，每个人是可以买四瓶1499的茅台酒的，但

8

12月18日，全天封板复盘。

9

柬埔寨说顶不住了，再不帮忙的话就彻底摊牌，公布电诈幕后股东，结果网友们异常兴奋，

10

没有过亿资产，都不敢有娶她的想法啊。

财经最新文章

1

上海九百这是发生了什么？又玩尾盘跳水这一套！上海九百今天高开秒板，虽然随后又开

2

【#A股分红额创历史新高#】#A股分红额已超2024全年#近年来A股上市公司

3

奉劝大家，年底这两个月，就算大家再有钱也千万不要傻乎乎去买什么黄金，黄金这

4

不出意外，一轮牛市结束时，A股可能很难突破5000点了，原因很简单…… 从当

5

A股周末总评：明天A股就要开盘了，关于下一周的行情，莎莎哥再重点给大家分享几个观

6

12.21周日，下周人气票前瞻平潭发展：惊弓之鸟，适可而止佛慈制药：底部秒板，

7

快报！日本突然宣布了12月20日消息，日本央行19日将基准利率上调25个基

8

炒股要跟政策走。周六，国家发展改革委、市场监管总局、国家网信办发布《互联网平台价

9

海南封关为什么说是个无解的阳谋？咱们从对手的角度来看。1，美国：企业想避关税、入

10

美联储现在巴不得中国能早点抛售美债？为啥他们一直不降息，因为他们很清楚，中国迟早