微软推出1.58bit无损蒸馏框架全华人团队再造微软神作
1.58bit量化,内存仅需1/10,但表现不输FP16?
微软最新推出的蒸馏框架BitNet Distillation(简称BitDistill),实现了几乎无性能损失的模型量化。
该框架在4B及以下的Qwen、Gemma上已被证实有效,理论上可用于其他Transformer模型。
同等硬件性能下,使用该方法量化后的推理速度提升2.65倍,内存消耗仅1/10。
网友看了之后表示,如此一来昂贵的GPU将不再是必需品,英伟达的好日子要到头了。