猜一猜DeepSeek-V4的模型架构网页链接这是阿里zartbot 的一篇解读。zartbot 有不少好文章,中文就在上面的链接。还有个英文的blog:github.com/zartbot/blog ,大部分是关于大模型软硬结合的内容。“最近很多人都在传DeepSeek会在春节前发布新一代的模型. 昨天在飞机上仔细想了一下, 因此准备结合这几年整个DeepSeek的研究路线, 做一个猜测. 首先我们在第一章回顾一下DeepSeek整个研发路径, 从哪些地方可以Scale谈起, 然后再进一步第二章来进行一个推测, 可能一些Attention的结构大家都能猜到DSA + mHC + Engram, 但是我想尝试着去理解背后的理论和Know-How”
猜一猜DeepSeek-V4的模型架构网页链接这是阿里zartbot的一篇解读
蚁工厂
2026-01-26 09:12:16
0
阅读:0