LLM压缩技术梳理大模型压缩技术简要解释梳理一下LLM压缩技术。这些方法各有优势

LLM压缩技术梳理大模型压缩技术简要解释

梳理一下LLM压缩技术。这些方法各有优势，也可组合使用。

量化（Quantization）：将权重、激活值乃至KV缓存从高精度（如FP16/FP32）压缩至低比特（如8/6/4/3/2 bit），可显著降低显存占用与带宽开销。最新研究系统评估了不同量化方式在多种模型结构与任务下的表现，结果显示在精度基本保持的前提下，低比特量化可带来可观的吞吐率提升与成本下降，因而成为LLM落地过程中最常用的压缩路径之一。

知识蒸馏（Knowledge Distillation）：通过大模型（Teacher）生成的软标签或分布信息，引导小模型（Student）学习其行为和知识，从而以更少的参数实现接近性能。在LLM时代，KD不仅用于压缩和提速，也被广泛应用于自蒸馏与对齐强化，方法上区分为黑盒与白盒两类。

低秩适配/分解（Low-Rank Adaptation, LoRA / Low-Rank Factorization）：通过在原始大矩阵中插入可训练的低秩分解矩阵，并冻结原始权重，使训练与存储参数大幅减少。此类方法不仅适用于压缩，同时也是高效微调的核心策略之一；适配后权重可与基模型合并，推理时几乎不增加延迟。

稀疏化/剪枝（Sparsity / Pruning）：通过移除对模型输出影响较小的连接或通道，使权重矩阵变得稀疏，进而减少参数总量与计算负担。例如SparseGPT展示了对GPT家族模型一次性剪枝至≥50%稀疏度而几乎无精度损失，为结构化与非结构化剪枝提供了有效路径。

参数共享（Weight Sharing）：在不同层间复用同一组参数，以降低模型总参数量与内存占用。典型如ALBERT中采用跨层参数共享与分解式嵌入结构，在不显著损失表示能力的前提下大幅压缩参数量。这一思路已被后续多种Transformer/LLM架构广泛吸收。

层丢弃/深度可调（Layer Dropping / Depth-on-Demand）：通过结构化Dropout对模型层级进行正则化，训练后在推理时可按需选择子网络的深度，从而灵活平衡推理延迟与性能。例如LayerDrop技术表明，在无需额外微调的情况下，可根据任务需求动态调整模型深度，适用于延迟敏感场景。

0 阅读：0