逆行者DeepSeek 2023年5月，千亿规模的量化私募幻方把下场做大模型的

高旭的世界 2024-12-27 16:45:55

逆行者DeepSeek 2023年5月，千亿规模的量化私募幻方把下场做大模型的独立新组织命名为DeepSeek，是大厂外唯一一家储备万张A100芯片的公司。他们发布的一款名为DeepSeek V2的开源模型，推理成本约等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。而且是有利润的。国产大模型之前很少涉足架构层面的创新，而该公司架构层面的创新，是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。 DeepSeek专注在研究和技术，未做toC应用，也是唯一一家未全面考虑商业化，坚定选择开源路线甚至都没融过资的公司。 DeepSeek通过一个前沿级 LLM 的开放权重发布，其训练的预算却非常低，2048 个英伟达H800 GPU（Ｈ100的性能减半版本），2 个月，600 万美元。作为参考，这种级别的能力应该需要接近 16K GPU 的集群，而今天推出的集群大约有 100K GPU。例如，Llama 3 405B 使用了 30.8M GPU 小时，而 DeepSeek-V3 看起来是一个更强大的模型，仅使用了 2.8M GPU 小时。

0 阅读：49

高旭的世界

感谢大家的关注

作者最新文章

1

广东的地方债规模小于江苏浙江山东和四川等经济大省。广东在经济扩张期没有加杠杆，现

2

2023年底，我国非化石能源发电装机首次超过火电。 2025年3月底，我国风电光

3

近日，中国电建承建的印度鼓达项目2号机组并网一次成功，标志着印度首台超超临界燃煤

4

沃尔玛：通知中国供应商恢复发货！ Home Depot：通知中国供应商恢复发货！

5

2024年6月，日产关停江苏常州厂的生产业务。 2025财年，日产计划关闭武汉厂

6

美国担心稀土供应稀土管制让美国慌了，美军工稀土储备仅够数月。 2010年，

7

目前前主流智能座舱SoC 芯片8nm制程的包括三星 V9、瑞芯微 RK3588M

8

母机中的母机 2004年，沈阳机床重组云南机床厂。 2005年9月，沈机成为昆

9

水资源封锁战 2025年4月22日，印度发生恐怖袭击，“抵抗阵线”组织宣称对事

10

2024年8月，松山湖佰维存储晶圆级封测项目正式动工开建，预计将于2025年全面

热门分类

国际TOP

1

澳大利亚一名31岁的男子养考拉，他在和考拉玩耍的时候发现考拉的指纹和人类很接近。

2

机场偶遇中国女孩接印度男朋友，那个高兴的样子简直像是中了500万的彩票，幸福溢于

3

在日本打工的朋友回来了，很多年没见，昨天一起吃个饭，我问他：日本那边怕打仗吗？他

4

在日本打工的朋友回来了，很多年没见，昨天一起吃个饭，我问他：日本那边怕打仗吗？他

5

在日本打工的朋友回来了，很多年没见，昨天一起吃个饭，我问他：日本那边怕打仗吗？

6

自从发现中国在中印边境用机器人巡逻后，印度人羡慕的不得了。有阿三突发奇想：把中国

7

中日现在矛盾激化，但中方依旧耐住性子没有盲目出手，其中有一个很重要的原因那便是一

8

维特科夫无法交差了！12月3日俄美会谈传出消息，会谈经过5个小时，没有达成任何

9

总有人问，俄罗斯会不会被耗死？我跟你说句大实话，别说耗了，就算这个地球上最后只剩

10

高市早苗去意已定？12月26日，也就是明天，是日本政要经常要参拜那个所谓“

国际最新文章

1

就在刚刚朝鲜正式宣布，12月25日，朝中社放出消息：朝鲜国防省正在考虑近期对

2

快报！乌克兰总统向全球宣称俄军使用中国卫星数据，消息一出引发全球关注

3

紧急通知！中国大使馆凌晨发文。要求中国公民立即撤离！！！看见这个新闻的时候

4

紧急通知！中国大使馆凌晨发文。要求中国公民立即撤离！！！看见这个新闻的时

5

高市早苗去意已定？12月26日，也就是明天，是日本政要经常要参拜那个所谓“

6

中日各方都准备好了！就等时机，时间节点月底，预期12月26日，就看高市早苗敢不敢

7

中国拒绝美国要求，继续买委内瑞拉石油。美军突袭，抢走中国石油。中华人民共和国可以

8

总有人问，俄罗斯会不会被耗死？我跟你说句大实话，别说耗了，就算这个地球上最后只剩

9

中美交锋掀起滔天巨浪！2025年，中美贸易战突然来了个大反转！特朗普当时的算盘

10

万万没想到，46条中日航线刚全部取消，就炸出来一群“妖魔鬼怪”。2025年1