【Deepseek刚刚推出了一种新的AI训练方法,分析人士称其为规模化应用的“突

理性闲谈天下事 2026-01-03 05:10:33

【Deepseek刚刚推出了一种新的AI训练方法,分析人士称其为规模化应用的“突破”】(商业内幕)DeepSeek在新的一年伊始提出了一个训练人工智能的新思路。分析师们认为,这一方法可能会对整个行业产生深远影响。这家中国人工智能初创公司在周三发表了一篇研究论文,描述了一种训练大语言模型的方法,该方法可能会塑造“基础模型的演变”,论文中提到。该论文由其创始人梁文峰联合撰写,介绍了DeepSeek所称的“流形约束超连接”(Manifold-Constrained Hyper-Connections,简称mHC)的训练方法,旨在让模型在规模扩大的同时,不会变得不稳定甚至崩溃。随着语言模型规模的不断扩大,研究人员通常会尝试通过让模型的不同部分在内部共享更多信息来提升性能。然而,这会增加信息变得不稳定的风险,论文中指出。DeepSeek的最新研究使得模型能够在一种约束的状态下进行更丰富的内部信息共享,即便在模型规模不断扩大的过程中,也能保持训练的稳定性和计算效率,论文补充道。DeepSeek的新方法是一项“引人注目的突破”Counterpoint Research的首席人工智能分析师孙伟在周五接受《商业内幕》采访时表示,这种方法是一项“引人注目的突破”。孙伟称,DeepSeek将各种技术相结合,以尽量减少训练模型所需的额外成本。她还指出,即便成本略有增加,这种新的训练方法也能带来更高的性能。孙伟认为,这篇论文可以看作是DeepSeek内部能力的宣言。通过从头到尾重新设计训练架构,该公司表明其能够将“快速实验与极具创新性的研究思路”相结合。她还提到,DeepSeek可以“再次突破计算瓶颈,实现智能的飞跃”,她所说的“斯普特尼克时刻”指的是2025年1月该公司推出的R1推理模型。该模型的发布震动了科技行业和美国股市,证明R1模型能够以极低的成本与ChatGPT的o1等顶尖竞争对手相媲美。Omdia的首席分析师连杰·苏在周五接受《商业内幕》采访时表示,DeepSeek所发表的研究可能会在整个行业内产生连锁反应,促使其他人工智能实验室开发自己版本的类似方法。连杰·苏称,DeepSeek“愿意与行业分享重要发现,同时继续通过新模型提供独特价值”,这表明中国人工智能行业“新获得了一种自信”。他还补充道,开放性被视为“一种战略优势和关键差异化因素”。DeepSeek的下一代模型是否即将到来?这篇论文发表之际,正值DeepSeek据传正在筹备发布其下一代旗舰模型R2,此前该模型的发布曾被推迟。据《信息》网站6月的一篇报道,原本预计于2025年中期发布的R2被推迟,原因是梁对模型的性能表示不满。该报道还称,先进人工智能芯片的短缺也使发布变得复杂,这种短缺正越来越多地影响中国实验室训练和部署前沿模型的方式。尽管论文中没有提及R2,但其发表时机却引起了人们的关注。此前,DeepSeek曾在推出R1模型之前发表了基础训练研究。连杰·苏表示,DeepSeek的过往记录表明,这种新架构“肯定会应用到他们的新模型中”。然而,孙伟则更为谨慎。她认为,“很可能不会再单独推出R2了”。由于DeepSeek已经在其V3模型中整合了R1的早期更新,因此这种技术可能会成为DeepSeekV4模型的核心架构。《商业内幕》的艾利斯特·巴尔在6月曾撰文称,DeepSeek对其R1模型的更新并未在科技行业内引起太大反响。巴尔认为,分发渠道很重要,而DeepSeek仍然缺乏像OpenAI和谷歌等领先人工智能实验室所拥有的广泛影响力,尤其是在西方市场。

0 阅读:0
理性闲谈天下事

理性闲谈天下事

感谢大家的关注