【蒙眼画画的AI,终于睁开了眼睛】
一只戴着棒球帽的鹈鹕骑着自行车,车篮里还装着一条小鱼。背景是渐变的落日和海面。
这张图让AI圈炸了锅。不是因为它多好看,而是因为它是用SVG生成的。
SVG是什么?简单说,就是用纯数学公式画画。没有像素,只有坐标、曲线方程、颜色代码。你让AI生成一张普通图片,它本质上是在猜测几百万个像素点该填什么颜色。但生成SVG,它必须写出一整套几何逻辑:这个圆的圆心在哪,半径多少,这条贝塞尔曲线的控制点怎么摆。
更要命的是,AI在写这些代码的时候,看不到自己画的是什么。
想象一下:蒙着眼睛,只能报坐标和方程式,要画出一幅完整的插画。六个月前,AI画出来的还是一堆火柴人。现在这只鹈鹕不仅有渐变色、有阴影层次,连车轮的辐条都清清楚楚。
这意味着什么?AI开始具备真正的空间推理能力了。它不再是把训练数据里的图案拼贴组合,而是在脑子里构建出一个完整的几何世界,然后用数学语言把它描述出来。
有人怀疑这是针对性训练的结果。毕竟“鹈鹕骑自行车”这个测试在AI圈流传已久,专门用来检验模型的空间想象力。但测试的发明者Simon Willison说得很直接:如果是刷榜,换成“马骑独轮车”立刻就会露馅。
更有意思的是社区的反应。有人说500年后威尔·史密斯唯一被记住的事就是吃意大利面。有人说下一个基准测试应该是“威尔·史密斯骑着鹈鹕”。还有人已经在盘算:再过一两年,Adobe的订阅费可以省了。
玩笑归玩笑,这张图揭示的趋势很严肃。当AI能够用纯粹的数学思维构建视觉世界,它就不再只是一个会画画的工具,而是一个真正理解空间关系的智能体。
从像素到向量,从模仿到理解,从看图说话到闭眼作画。AI正在学会一种人类很难掌握的能力:把想象力翻译成精确的数学语言。
reddit.com/r/singularity/comments/1r3bl58/gemini_3_deep_think_svg_pelican_riding_a_bicycle

