在拾象创始人兼 CEO 李广密组织的 DeepSeek 的闭门讨论会上,还提到了蒸馏的优势和劣势。
大模型和小模型能力是不匹配的,从大模型往小模型进行蒸馏是真的蒸馏,如果从完全不会中文的模型蒸馏各种中文数据,性能可能会下跌。蒸馏的坏处是模型的多样性会下降,影响模型上限,无法超越最强的模型,但短期看,蒸馏也是一条路线。
不过其他模型用蒸馏也能得到较好的结果,未来在模型生态里面可能就会有老师、学生的角色区分,有能力当一名好学生也是一种可以的商业模式。
而 OpenAI 是没有数据蒸馏的,要超过 OpenAI 是肯定不能做蒸馏。
如果不去了解模型训练中最大的技术痛点,而选择用蒸馏的技术去避免了解,那么在下一代技术提出的时候,就可能会掉进坑里。