1月1日北京下午,DeepSeek发新论文,提出mHC新架构。靶点明确,传统超连

马元青柠 2026-01-01 20:34:54

1月1日北京下午,DeepSeek发新论文,提出mHC新架构。靶点明确,传统超连接在大规模训练容易摇,性能涨,稳定性掉,内存访问还重。团队做法,把超连接投到特定流形,找回恒等映射,再配合底层优化,效率不丢。 三位第一作者,解振达、韦毅轩、Huanqi Cao。创始人兼CEO梁文锋也列名。实验给出,训练更稳,性能更高,扩展更顺。 问题来了,纸面漂亮,真实工程能否扛住更大规模?能扛,mHC像给HC装稳压器。态度,谨慎乐观,等更多复现与数据。

0 阅读:0
马元青柠

马元青柠

感谢大家的关注