逆行者DeepSeek 2023年5月,千亿规模的量化私募幻方把下场做大模型的

高旭的世界 2024-12-27 16:45:55

逆行者DeepSeek 2023年5月,千亿规模的量化私募幻方把下场做大模型的独立新组织命名为DeepSeek,是大厂外唯一一家储备万张A100芯片的公司。他们发布的一款名为DeepSeek V2的开源模型,推理成本约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。而且是有利润的。 国产大模型之前很少涉足架构层面的创新,而该公司架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。 DeepSeek专注在研究和技术,未做toC应用,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。 DeepSeek通过一个前沿级 LLM 的开放权重发布,其训练的预算却非常低,2048 个英伟达H800 GPU(H100的性能减半版本),2 个月,600 万美元。 作为参考,这种级别的能力应该需要接近 16K GPU 的集群,而今天推出的集群大约有 100K GPU。例如,Llama 3 405B 使用了 30.8M GPU 小时,而 DeepSeek-V3 看起来是一个更强大的模型,仅使用了 2.8M GPU 小时。

0 阅读:49
高旭的世界

高旭的世界

感谢大家的关注