AndrejKarpathy刚发布了一个仅用约250行纯Python代

蚁工厂 2026-02-12 09:27:20

Andrej Karpathy刚发布了一个仅用约 250 行纯 Python 代码就实现了 GPT 训练和推理全过程的演示,非常适合用来理解大型语言模型底层的数学原理。Andrej Karpathy:“新的艺术项目。用243行纯粹的、无依赖的Python代码实现GPT的训练与推理。这包含了所需内容的完整算法部分,其余的一切都只是为了提升效率。我已无法再进一步简化。

其工作原理是将完整的LLM架构和损失函数彻底分解为构成它的最基本数学运算(+、*、**、log、exp),然后通过一个微小的标量自动求导引擎(micrograd)来计算梯度,优化器使用Adam。”

代码在这里:gist.github.com/karpathy/8627fe009c40f57531cb18360106ce95HOW I AI

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注