谷歌TPU能撼动英伟达吗？前TPU工程师首次揭秘

（点击收听本期音频👆）采访｜泓君图文｜朱婕在AI算力争霸时代，英伟达凭借GPU市值一路狂飙。但如今，它的蛋糕正在被一点点分食——2024年，苹果论文披露Apple Intelligence全部由TPU训练；2025年，Anthropic签下数十亿美元订单，购买TPU训练Claude；近期，Meta与谷歌签署数十亿美元协议，租用TPU跑Llama。TPU一直是谷歌低调的“自家武器”，在过去十年里驱动着几乎全部核心产品。直到TPU训练的Gemini 3打了一场漂亮的翻身仗，人们才开始重新审视：这套从搜索推荐系统中长出来的定制芯片，究竟藏着多少秘密？本期硅谷101以视频播客的形式录制，主播泓君邀请到前谷歌TPU工程师Henry。他在2018年至2024年间深度参与了三代TPU的研发，也见证了大模型时代TPU的关键转型。他将从硬件架构、软件生态、生产供应链博弈三个维度，一层层揭开TPU的神秘面纱。TPU与GPU有着完全不同的设计哲学。Henry用“流水线”与“大厨们”来比喻两者的架构差异：GPU起源于图形处理，采用SIMT架构，如同一个厨房里拥有众多独立思考的大厨，可以并行处理多种任务。而TPU是专为机器学习矩阵计算定制的加速器，通过芯片间互联（ICI）构建起3D Torus网络，让数千张芯片在用户感知中如同一张芯片般协同工作。他认为TPU挑战GPU的机会在于——在软硬件深度协同下，TPU能够在已知任务负载时，对整颗TPU Pod进行全局算子融合与内存管理优化，将硬件性能“榨干”到极致。这种设计使得TPU在模型相对稳定、需要大规模部署的场景中，能够实现比GPU更低的推理成本。然而TPU的短板也同样明显：软件生态上，尽管TPU已向Anthropic、Meta等外部客户开放，但其编译工具XLA仍是一个“黑盒”，外部团队很难独立完成调优。产能方面，TPU高度受制于被英伟达牢牢锁定的HBM（高带宽内存）产能，以及台积电的CoWoS先进封装资源，且高度依赖博通打通供应链。更重要的是，作为一款专用ASIC芯片，TPU的通用性远不及GPU。当模型算法以月为单位迭代，每一代TPU都要去押注两三年后的技术走向。若未来模型范式发生变化，TPU还能一直赌对吗？欢迎关注《硅谷101视频号》或音频栏目直接收听本期播客。如果你喜欢我们的节目，更推荐大家使用音频客户端来收听，《硅谷101》已覆盖各大主流音频平台（渠道见文末），欢迎订阅！以下是这次对话内容的精选：01TPU v.s GPU架构对决谁更省钱？谁更强？泓君：很多人不清楚TPU跟英伟达的GPU，有什么样的不一样。我们可以先简单给听众介绍一下。Henry：首先TPU和GPU本身的架构是完全不一样的。GPU大家可能了解更加多一些，因为最开始它是做游戏的显卡，它是一个SIMT的架构（Single Instruction Multiple Threading），它是一个多线程单一指令的架构，可以理解成一个厨房里面同时安排着很多很多个大厨，他们每个人都有独立的思考能力。所以你安排很多很多大厨的话，这样并行计算能力就会非常非常强。泓君：如果我们同样用做菜来比喻TPU的话，你觉得它的流程跟GPU有什么不一样？Henry：TPU和GPU最大的区别就是，TPU是一个针对机器学习的加速器。我们知道，机器学习任何的算法，里面的核心就是矩阵计算，包括最开始的CNN（卷积神经网络），到现在的Attention，到Transformer，到未来的架构。矩阵计算这个东西是非常Compute Bound（计算密集型）。TPU就是针对这个矩阵计算专门做了一个定制的加速器。用做饭来比喻，TPU是一个流水线，不用安排那么多的大厨，它会把每一个步骤都告诉你具体做什么，比如说第一个人会从冰箱里把菜给取出来给第二个人，第二个人继续做加工传到第三个人。你可以理解成是心脏的泵血，每泵一次，它就会把血液传输到你身体的各个角落。所以这样的话，中间它会少很多的调度和调控，所以能保证每一个计算单元的使用率会更高一些。泓君：在模型的训练上，这两种不同的架构各自的优势跟缺点是什么？Henry：我觉得现在预训练，包括后面的推理，我们在慢慢地从Compute Bound（计算密集型）变成Memory Bound（访存密集型），所以我们现在对内存的要求是非常高的。SIMT架构有一个缺陷，因为你需要独立地去做这样的计算任务，所以在一直等数据搬运过来的过程中，有时就会有一些idle period（空闲周期）。所以这个过程当中就会导致它的矩阵计算利用率没有那么高，utilization rate（产能利用率）就会有下降。我觉得TPU弥补了这个缺点，我们待会儿可以具体聊一下它软硬件的协同效应。TPU会保证它是一个满功率下的运行，它不需要等待数据搬运的过程，它要么利用当地的缓存，把一些提前搬运过来的数据重复去利用，要么把带宽跑满，这样我们可以使内存利用率能达到一个峰值。泓君：所以用一句话来做结论，你觉得TPU跟GPU它们在模型的训练上谁更强，能优化多少？Henry：我觉得从预训练上来讲的话，目前GPU和TPU最大的区别就是——当然GPU现在也开始往那个方向去发展——因为TPU一直做系统层面设计，它是一个大的计算集群，而不是单卡单芯片去做预训练。GPU可能很长一段时间都是单张卡的性能非常好，但是它没有一个网络。TPU一直是主打TPU Pod，它是一个有几千张卡的协同训练的状态。它里面牵扯到了很多通信，就是ICI，芯片间互联，它芯片与芯片之间通信和网络，我们叫做3D Torus，一个拓扑的网络。它可以让几千张卡芯片在用户的感觉当中是一张卡的芯片，它中间训练效率是非常高的，这样的话它的成本也可以打得下来。图片来源：Google泓君：我看新闻报道说谷歌V7，就是你研发的这套Ironwood，它的芯片在物理参数上已经非常接近GB200了。所以它如果在真实的工作中，比如同样是训练一个Gemini的模型，同样的参数量，用GPU跟用谷歌的TPU，谁更省钱？Henry：我觉得这是很好的问题。我的理解是，将来如果说谷歌给其他大模型公司定制的话，我觉得谷歌的性价比（TCO，Total Cost of Ownership）是更高的。当你知道你的任务负载（Workload）是什么的时候，你就可以根据你的任务负载去做一些物理的芯片层面或软件层面的定制。虽然说它可能有点“黑盒”的感觉，当你所有的已知条件都确定下来时，我觉得TPU在现实条件下，它的训练效率还是TCO，都会比GPU更加强大。它的利用率更好的原因，是它的FLOPs（单位时间内做多少次浮点式运算），因为TPU里面主要的架构就是矩阵计算，所以它的软件和硬件可以保证它每个时间、每个计算单元都有活在做。我们的软件相当于帮助硬件说，我不会让你闲下来，每个时间点你都有工作，但是你具体做什么活，是我告诉你的，你不需要精准地去预测或怎么样。硬件层面说，我们不会加很多的控制单元。这跟GPU很大的区别就是，我们不需要任何的预测，它预测的那一层面相当于都是在软件层面去实现的。所以相当于你把硬件变得更蠢了一点，相当于是一个机械式的劳作，软件那边帮你把所有复杂难题都给处理掉。所以Ironwood主要有两大进步。一个进步就是它把它的峰值