小红书也下场搞大模型了,还一出手就是个“大动作”。 他们刚开源了自研大语言模型d

量子位来谈科技 2025-06-11 15:25:07

小红书也下场搞大模型了,还一出手就是个“大动作”。 他们刚开源了自研大语言模型dots.llm1,参数高达1420亿,但推理时只激活10%——约140亿参数,做到了“省钱不降质”。在中文任务上,甚至干过了阿里家的Qwen2.5,还顺手比DeepSeek系列新模型分数更高。 以下是dots.llm1的重点信息,看看这个“小红书大模型”有多能打: - 类型:MoE(专家混合模型),结构上是decoder-only Transformer; - 参数量:总共1420亿,但每次推理只用到140亿,大大降低算力成本; - 架构来源:在DeepSeekMoE的基础上改进。 在中文、数学和代码任务上,dots.llm1都小胜Qwen2.5-72B: - 中文任务:91.3分(领先约1分) - 数学任务:78.3分 vs 77.3 - 代码任务:59.6分 vs 59.0 - 英文任务稍弱:75.7 vs 76.3(但成本更低) Github:-hilab/dots.llm1 论文:

0 阅读:0
量子位来谈科技

量子位来谈科技

感谢大家的关注