AI无意间干翻人类专家AI意外生成超强CUDA内核
好家伙,AI意外生成的内核(kernel),性能比人类专家专门优化过的还要好!
斯坦福最近披露了一组新发现,结果真的太亮眼了。【图1】
由AI优化的内核,在常见深度学习操作上,翻倍超越原生PyTorch,性能至多可以提升近400%——
- 矩阵乘法(Matmul,FP32):性能达到PyTorch torch.matmul的101.3%。
- 二维卷积(Conv2D):性能达到 torch.nn.Conv2D的179.9%。
- Softmax:性能达到 torch.softmax的111.8%。
- 层归一化(LayerNorm):性能达到torch.nn.LayerNorm的484.4%。
- Conv2D+ReLU+MaxPool组合操作:性能达到PyTorch参考实现的290.1%,以及torch.compile()参考实现的189.0%。
更惊人的是,这一切都是意外实现的。
研究团队本来的目标是生成合成数据以训练内核生成模型。
结果发现,仅在测试阶段生成的合成数据本身,竟然可以生成性能非常优秀的内核。【图2】
围观网友:没想到AI也要取代内核工程师了。【图3】
还有人发现,除了性能大幅提升外,研究团队采用的方法也非常有趣:
他们没有简单的在操作上逐步优化(类似于爬坡算法),而是在每次迭代之间加入了一个语言推理的步骤,通过这种方式鼓励搜索过程更加多样化。
也就是说,他们是让系统在每次改进时通过类似“思考”的方式产生更多想法,从而找到更好的解决方案。【图4】
具体如何实现,一起来看: