谷歌TPU效果很好,对英伟达真正有威胁的芯片来了,二者市值排名会换位其实我早就知道TPU,因为2016年AlphaGo下棋击败人类时就是用一屋子的TPU来计算的。当时不少文章都介绍了TPU。但后来英伟达GPU名气太大,TPU就没啥人关注了。2013年谷歌搞了TPU,来应对飙升的算力需求,当时是为了搜索业务。当时已经有GPU,但它是“通用计算”GPU,能干很多种事。但是在矩阵计算这事上,反而不是最高效。简单说,那时GPU对一维的向量加速做得还行,但是对于二维的矩阵加速做得不够。而谷歌的语音搜索需要搞神经网络识别,有大量的矩阵计算,于是就搞了TPU来专门优化矩阵。一维数组、二维矩阵、多个矩阵的阵列,统一叫“张量”,也就是Tensor。TPU就是Tensor Processing Unit,张量处理单元。要注意谷歌设计的TPU是专门的ASIC芯片,不通用,干的事很特别,不象英伟达GPU那样提供许多种通用计算功能。2014年设计成功流片,2015年上线大规模应用。谷歌业务上有许多与AI神经网络相关的,内部大量使用,都觉得不错。从现在的概念来看,谷歌这些业务都是“推理”应用,用TPU加速,应对海量的客户需求,积累的很多经验。TPU在特定任务上优化得更好,因为只做专门的事。GPU推出的时候是为了玩游戏,最常见的应用就是“光栅化”,一种计算机图形学概念。英伟达GPU后面走的是2000年后开始的GPGPU路线,GPU通用计算,找了无数种领域应用,非常成功。GPU架构升级后,也加入了Tensor Core,加速矩阵计算 。但众多应用造成了包袱,对特定计算的加速就不如TPU这种ASIC芯片纯粹,如果只做神经网络推理,GPU的性价比低。例如GPU计算往往涉及在内存(后来是HBM)和GPU运算单元之间交换数据,很多情况下“算得少、运得多”,出现“冯诺依曼瓶颈”,算力被数据交换速度与带宽卡了。所以GPU指标里,会非常强调带宽、数换传输速度。而TPU架构简单,它只从内存读一次数据,然后就在TPU阵列内部处理数据,不写回内存。这限制了应用,但效率非常高。由于庞大的业务需求,谷歌成为英伟达之外对于超大规模AI计算积累最多的公司。其它公司都绑定英伟达GPU发展,而谷歌除了用英伟达GPU,还同时设计TPU针对特定业务,经验越积累越多。最后效果是,在大模型训练这种最复杂的应用中,专门设计的TPU比英伟达GPU能耗效率更好,差距是40%-60%。而价格差距就更大了,谷歌自己设计TPU不需要抢买卡。许多人报告了使用TPU相对GPU的大幅性能提升,充分证明了ASIC专用设计相对通用芯片的优势。英伟达的优势是,它一路发展过来,解决了无数AI与其它应用中的“坑”。也许其它公司理论上知道如何做,但搭起算力池子,就发现“万卡互连”之类的事不好办。谷歌在内部应用中,同样用TPU积累了足够多的经验,虽然并没有那么广泛,但用于AI领域足够,规模也做到了极大。现在出现的技术趋势是,由于TPU设计更为紧凑,如体积明显比GPU小,它的性能提升曲线比英伟达GPU更快!这不是追赶英伟达了,而是要超越,成本低、价格低、性能好、能耗低,全面占优。英伟达还有CUDA的优势,已经在CUDA中用得不错的老代码改动代价极大。所以客户还是倾向用英伟达GPU,特别是大模型训练。谷歌云都需要买大量英伟达GPU,满足客户需求。谷歌对外销售TPU,受到CUDA代码的限制,不可能一下有很多客户。但是亚马逊和微软等公司都有样学样,开始大搞自己类似TPU的ASIC芯片。一些中国公司也设计了出色的产品。有时一个算力需求大的公司就能造成很大影响。如10月24日,Anthropic与谷歌云宣布数百亿美元的战略合作协议,供应最多100万枚TPU芯片,2026年投入使用,算力容量超过1GW,数据中心成本约500亿美元,其中约350亿美元用于芯片采购。如果没有TPU,用英伟达GPU的成本要高得多。因为这些动向,谷歌与英伟达的市值开始反向运动,位次交换可以预期。
