DeepSeek元旦新论文它没去追逐那些宏大叙事,而是用了一个相当“工程师”的思

科技小周说 2026-01-02 03:33:28

DeepSeek元旦新论文它没去追逐那些宏大叙事,而是用了一个相当“工程师”的思路去解决大模型训练中一个具体又顽固的老毛病。我觉得,它的聪明之处在于,没有蛮干,而是通过约束矩阵流形,用很小的额外成本就换来了训练的稳定和效果的提升。所以,与其说它是一次颠覆,不如说它展示了一条更务实的路径:在现有范式下,通过持续的技术打磨,依然能有效提升模型的“基本功”。

0 阅读:6
科技小周说

科技小周说

感谢大家的关注