DeepMind的Xiaoyu Ma, David Patterson发了篇论文介绍大语言模型推理硬件的挑战与研究方向。《Challenges and Research Directions for Large Language Model Inference Hardware》arxiv.org/abs/2601.05047在大模型推理里,尤其是逐 token 生成的阶段,性能和成本越来越不是由算力决定,而是由把大量参数与中间状态在合适时间送到计算单元所需的内存容量、内存带宽和互连时延决定;因此单纯堆更多计算单元或更大算力并不能线性改善吞吐/时延,反而会把系统推向更昂贵、更耗能、网络更复杂的形态。文章据此建议把硬件与系统研发重心转向四类更匹配推理负载的方向:1. 用更高密度、更低成本的本地存储承载权重(如高带宽闪存)以减少跨节点搬运;2. 把部分计算更靠近内存以降低数据移动能耗并简化分片(PNM/近存计算);3. 通过 3D 堆叠把逻辑与内存接口做得更宽更短以提升带宽/瓦并降低数据传输能耗;4. 把互连设计从“追求总带宽”转为“降低小消息通信的端到端时延”,因为推理的尾延迟常常由多芯片协同中的通信延迟主导。HOW I AI
