OpenAI联合创始人Ilya精选的AI论文清单来了!Ilya称,读懂这30篇论

量子位来谈科技 2025-06-13 12:24:31

OpenAI联合创始人Ilya精选的AI论文清单来了!Ilya称,读懂这30篇论文,就掌握了90%的AI底层原理。 22篇基础篇(经典神经网 & 结构):RNN/LSTM、CNN、Transformer、记忆模型、VAE 等 3篇优化篇(正则化、规模、推理):dropout、残差、MDL、GPipe、Scaling Laws、关系网络等 5篇应用篇(ASR、检索、生成、对齐):Deep Speech2、DPR、RAG、Zephyr、fact‑checking 基础篇: The First Law of Complexodynamics:用复杂性 vs 熵探讨世界演化曲线 Unreasonable Effectiveness of RNNs、Understanding LSTM Networks:RNN/LSTM 入门与结构讲解 RNN Regularization:LSTM 加 dropout 的技巧 MDL 权重最小化:从 Hinton 的信息论视角正则化 Pointer Networks:用注意力抠 token 索引问题 AlexNet (ImageNet Classification…):CNN 崛起启蒙作 Order Matters for Sets:Seq2Seq 模型处理无序数据策略 GPipe:跨 GPU 按片训练大模型 ResNet (Deep Residual Learning):残差块首创,后续身份映射优化版本 Dilated Convolutions:不降采样却扩大感受野 Neural Message Passing:化学图建模的 message passing 神经网 Attention is All You Need:Transformer 架构诞生经 Bahdanau Attention for NMT:早期注意力机制在翻译上的关键贡献 Relation Networks、Relational RNNs:关系推理模块与记忆网络 Variational Lossy Autoencoder:VAE+自回归混合,把握全局结构 Neural Turing Machines:神经控制器+可微记忆,做算法学习 Deep Speech 2:端到端中英 ASR 高精度实践 Scaling Laws for LMs:参数/数据/算力规模与性能关系 MDL 原理教程:信息压缩+模型选择理论 Machine Super Intelligence:Shane Legg 关于超智能框架与安全 Kolmogorov Complexity:算法复杂性与信息论基础 Stanford CS231n:CNN 图像识别课程一手教程 二、优化篇: Multi‑token Prediction(Better & Faster LLMs):预测多个 token,效率与性能提升 Dense Passage Retrieval:双编码检索模块 DPR,开放问答 retrieval 主力 RAG:检索增强生成模型,用检索器+seq2seq 模型融合生成事实性回答 三、应用篇: Zephyr:LM Alignment:无人工反馈,直接用 distillation + dDPO 达到 alignment 效率 Lost In The Middle:揭开 LLM 在超长上下文中中段 recall 的“U 型”性能坍缩现象 Precise Zero‑Shot Dense Retrieval:HyDE 方法,用生成器创造伪标注,做真正 zero‑shot 检索 ALCUNA:构造新知识 benchmark,看 LLM 如何接纳未见实体 Fact‑checking with LLMs:评估 GPT‑3.5/4 用于事实核查的潜力与局限 网页链接在这,赶快码起来吧:aman.ai/primers/ai/top-30-papers/

0 阅读:0
量子位来谈科技

量子位来谈科技

感谢大家的关注