DeepSeek最新深夜论文核心讲了什么 一句话总结:在算力和存力未提升的情况下

纯真灵魂 2026-01-13 10:31:46

DeepSeek最新深夜论文核心讲了什么 一句话总结:在算力和存力未提升的情况下(即计算资源同等),模型知识和推理能力再提升 Why? 提出了一个名为Engram的新型记忆模块,旨在让Transformer大模型能像“查字典”一样高效处理静态知识,从而解放计算资源以专注于复杂推理。为什么?可以理解为知识事实主要依赖于Engram模块,而阅读理解能力则主要由主干网络保留。通过技术手段把”知识事实“原本训练和推理需要消耗计算的部分,单独拿出来变成个”字典“,在应该去做复杂计算的部分相对有了更多的计算资源,从而带来了知识、推理能力的全面提升。 架构设计的妙处在于:这个能力的提升并没有带来算力和存力的大幅提升。怎么做的? (1)Engram模块的参数量规模基本不会影响每一步的实际通信量,每一步的实际通信量是随激活槽位的数量变化的,而非嵌入表的总大小; (2)内存增强型模型的扩展通常受限于GPU高带宽内存(HBM)的容量瓶颈。不过,Engram的确定性检索机制天然支持将参数存储与计算资源解耦。其中: (a)训练阶段的Engram训练阶段:超大嵌入表被分片存储在所有可用的GPU中,通过“全到全”通信原语跨设备检索活跃的嵌入行。 (b)推理阶段的Engram推理阶段:Engram表被卸载到主机内存。借助确定性检索逻辑,主机会异步预取并传输嵌入向量,将通信过程与前序Transformer块在设备端的计算过程重叠执行。 细节设计:放在架构第2层效果最好。如果要放两个,第2层和第15层的组合最优。把20-25%的稀疏参数从MoE转给Engram,效果最好。

0 阅读:24
纯真灵魂

纯真灵魂

感谢大家的关注