仅用提示词工程摘下IMO金牌大模型不砸钱也能比肩大厂两位清华校友强强联合,让基础

量子位看科技 2025-08-02 14:25:18

仅用提示词工程摘下IMO金牌大模型不砸钱也能比肩大厂

两位清华校友强强联合,让基础模型Gemini 2.5 Pro轻松达到IMO金牌水平,只需一个小小的提示词改动!

该发现来自两位清华校友杨林和黄溢辰,他们共同设计了一套自我迭代验证流程和提示词优化,就成功让Gemini 2.5 Pro完成了今年IMO题目的解答。

他们还刚刚更新了代码,直接利用通用提示词就能实现模型推理增强。【图1】

好家伙,原来我们都被LLM骗了,基础大模型早就弯道超车,具备超强的解决复杂数学推理问题的能力。

只不过,直接用效果并不好。

就像MathArena也用Gemini 2.5 Pro跑了本次IMO题目,结果只有13分,远低于IMO铜牌门槛(19/42)。【图2】

但只要加一点点提示词魔法和迭代验证,就能实现1+1>2。

这一点也受到了陶哲轩的认可:

我认同严格验证是在复杂数学任务中取得出色表现的关键。【图3】

具体是怎么做到的?我们接着往下看

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注