普林斯顿新注意力机制研究
研究概述
普林斯顿大学团队提出两种新型注意力机制(GTA和GLA),针对大模型推理阶段的效率瓶颈优化,兼顾性能与速度。核心目标为减少KV缓存占用、提升长上下文处理能力。
方法创新
1. Grouped-Tied Attention (GTA)
• 设计:分组共享KV参数,同一组查询头绑定相同键值状态。
• 优势:KV缓存减少50%,性能媲美GQA(如Llama 3所用)。
2. Grouped Latent Attention (GLA)
• 设计:引入全局潜在Token压缩上下文,分组共享潜在KV。
• 优势:解码速度达FlashMLA的2倍,匹配DeepSeek MLA质量。
实验验证
• 质量:GTA/GLA在困惑度、下游任务中持平或优于GQA/MLA。
• 效率:GLA吞吐量更高,长上下文(64K)处理优势显著。
团队背景
作者包括Mamba核心开发者Tri Dao,研究聚焦推理优化(如FlashAttention系列)。成果被视作迈向“理想推理架构”的第一步。
资源链接
论文与代码已开源,详见文末参考链接。