仅用提示词工程摘下IMO金牌大模型不砸钱也能比肩大厂两位清华校友强强联合，让基础

量子位看科技 2025-08-02 14:25:18

仅用提示词工程摘下IMO金牌大模型不砸钱也能比肩大厂

两位清华校友强强联合，让基础模型Gemini 2.5 Pro轻松达到IMO金牌水平，只需一个小小的提示词改动！

该发现来自两位清华校友杨林和黄溢辰，他们共同设计了一套自我迭代验证流程和提示词优化，就成功让Gemini 2.5 Pro完成了今年IMO题目的解答。

他们还刚刚更新了代码，直接利用通用提示词就能实现模型推理增强。【图1】

好家伙，原来我们都被LLM骗了，基础大模型早就弯道超车，具备超强的解决复杂数学推理问题的能力。

只不过，直接用效果并不好。

就像MathArena也用Gemini 2.5 Pro跑了本次IMO题目，结果只有13分，远低于IMO铜牌门槛（19/42）。【图2】

但只要加一点点提示词魔法和迭代验证，就能实现1+1>2。

这一点也受到了陶哲轩的认可：

我认同严格验证是在复杂数学任务中取得出色表现的关键。【图3】

具体是怎么做到的？我们接着往下看

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

字节将推理模型速度提高5.4倍字节Seed发布扩散语言模型用扩散模型写代码，不仅

2

两位顶梁柱撑起OpenAI研究ChatGPT爸妈亮相在Ilya离开之后，谁在撑起

3

AI智能体发展系统回顾AI智能体四阶段进化史这篇论文系统回顾了AI智能体的技术发

4

微软发布AI职业冲击榜AI时代什么职业易被替代微软刚刚公布了“最容易被AI替代”

5

Steam游戏成AI新评测标准星露谷物语成AI考场AI能不能像人类一样在复杂世界

6

又一SOTA级开源模型阶跃多模态百万token不到四毛又一个SOTA基础模型开源

7

Qwen新模型直逼Claude4Qwen编程模型33GB本地即可运行开源编程模型

8

AI耳机杀出重围AI硬件终于找到突破口今年WAIC的展厅里，琳琅满目的AI硬件让

9

全网疯传GPT5泄露GPT5编程实测Demo抢先曝光GPT-5这回是真的要来了。

10

随手拍照片就能VR云旅游几张照片复原3D世界你随便用手机拍了几张家里的照片，没有

热门分类

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

4

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

5

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

6

追觅汽车首款车型官图发布这次会是PPT造车吗？此前追觅就官宣要造车，并且工厂

7

买手机不要着急，买新不买旧。9月10月份将有大量新机发布，配置提升，续航也提升

8

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

9

小米澎湃OS3官宣8月28日发布了，而且值得一提的是这次是OS3单开一场，可

10

感受一下1999的真我15Pro，这确实太薄了，7.79mm，187g，

科技最新文章

1

空调行业的天塌了！卢总在直播间宣布：小米空调升级10年包修，只要是2025年

2

📢荣耀这次真的杀疯了！Magic8系列的“王炸”居然是——影像！🔥不是电

3

📢当时忍住没买荣耀GT的，这波真的赢麻了！🎉全新荣耀GT2这次是真的——

4

小米澎湃OS3正式版更新计划来了，看看你的什么时候更新首批机型小米25系列4款

5

vivoX300基本就是这样了~外观方面基本没啥变动，依旧是后置居中大圆

6

9月19日，追觅科技正式宣布，其尚未发布的首款旗舰手机DreameSpace已

7

vivoX300和X300Pro外观公布满分10给几分？新机来

8

荣耀近半年新品规划曝光！10月仅两款Magic8机型先发刷到荣耀近半年新品动态

9

入手荣耀Magic7Pro已半年，感受太真实，不得不说几句。作为日常主力机

10

好家伙，荣耀这保密咋做的，荣耀magic8系列都快被曝光完了吧，发布会公布个价格