小红书也下场搞大模型了，还一出手就是个“大动作”。他们刚开源了自研大语言模型d

量子位来谈科技 2025-06-11 15:25:07

小红书也下场搞大模型了，还一出手就是个“大动作”。他们刚开源了自研大语言模型dots.llm1，参数高达1420亿，但推理时只激活10%——约140亿参数，做到了“省钱不降质”。在中文任务上，甚至干过了阿里家的Qwen2.5，还顺手比DeepSeek系列新模型分数更高。以下是dots.llm1的重点信息，看看这个“小红书大模型”有多能打： - 类型：MoE（专家混合模型），结构上是decoder-only Transformer； - 参数量：总共1420亿，但每次推理只用到140亿，大大降低算力成本； - 架构来源：在DeepSeekMoE的基础上改进。在中文、数学和代码任务上，dots.llm1都小胜Qwen2.5-72B： - 中文任务：91.3分（领先约1分） - 数学任务：78.3分 vs 77.3 - 代码任务：59.6分 vs 59.0 - 英文任务稍弱：75.7 vs 76.3（但成本更低） Github：-hilab/dots.llm1 论文：

0 阅读：0

量子位来谈科技

感谢大家的关注

作者最新文章

1

大模型也讲节奏感，先慢后快反而更聪明？这篇AK大佬转发的清华姚班校友论文，提出

2

AI太耗能，这事儿几乎没人反对。但有一批研究者，正在用几十年前的“老思路”，尝试

3

苹果的Safari浏览器正被黑客利用—— 黑客通过全屏浏览器中间人（BitM）攻

4

为了训练大模型，恶意爬虫挤爆了各类科学数据库？今年2月，收藏了近300万张不同

5

更适合网页设计师体质的Cursor来了，让设计入门变得无比简单！ Onlook，

6

2025年度“CCF王选奖”提名通道正式开启，截止时间是7月14日。这是计算机领

7

Meta正在推进一项大胆的计划：用AI接管整个广告流程。从创意、制作、投放到优化

8

谷歌悄悄上线了一款App：Google AI Edge Gallery，它能让用

9

马斯克旗下的人工智能公司xAI，正在进行一项总额3亿美元的股权出售计划，公司估值

10

谷歌发布的《601个真实Gen AI应用案例》显示，生成式AI已经从“探索阶段”

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

这也太瘦了，门禁直接成了摆设

2

华为自研鸿蒙电脑，没有键盘！是一整块可折叠的超大屏幕，然后内置大面积线性马达，通

3

这中控屏幕看起来有点丑

4

一图解读：十款手机配置，各显神通，你更喜欢哪款？

5

姐那锤子是干啥使的，快说！

6

以前这样挂着一部手机那是相当时髦的

7

一个人躺在沙发上玩手机。

8

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

9

数据一出来，谁在裸泳一目了然6000元以上的手机iPhone哪是碾压，完全是

10

存一张美得很人山人海的（AI

科技最新文章

1

vivoXFold3发布会，6月25日19点，曝光的参数：骁龙8Gen3处

2

华为是真“霸气”，一场发布会下来愣是半个字不提麒麟，半个字不提性能，却又全是性能

3

同事真的有点糊涂了竟然想着把Pura70pro换成nova14Ultra，我

4

美国商务部长卢特尼克，在听证会上面炮轰中国芯片企业：“中国企业说，他们在生产ai

5

美国现在对华卡脖子的领域分布在高端芯片、光刻机、芯片设计软件、航空发动机和部分

6

华为“不干了”，技术一收紧，一些友商没办法白嫖技术，都急成啥样了。之前拿了便宜

7

最近准备回国，想把手上用了四年多的华为mate40pro换掉，这不，今天下午有空

8

Pura80发布会上，余总表示系统流畅度和响应速度上相比pura70系列提升在3

9

鸿蒙NEXT一样图看懂Pura80系列价格，5.1系统特性，全新的交互动效、

10

任正非的最新发言震撼花粉！如今华为取得的成绩，在国产手机中已经数一数二了，打