Google 推出第七代 Ironwood TPU 芯片，借助 AI 进行性能对比

至顶科技

2025-04-10 18:09发布于北京

+关注

在周三的 Cloud Next 大会上，Google 宣布其第七代 Tensor Processing Units (TPU) 即将向云端客户开放租用，可选择 256 芯片或 9,216 芯片的集群方案。

Google 打趣地表示，配备 9,216 个自研 AI 加速器的集群可以提供 42.5 exaFLOPS 的算力，是目前全球最强公开超级计算机——美国的 El Capitan (1.7 exaFLOPS) 的 24 倍算力。

这个数据听起来令人印象深刻，但 Google 的营销团队略过了一个重要细节。42.5 exaFLOPS 的峰值性能是基于 FP8 精度计算的，而 El Cap 在 HPC 专用的 LINPACK 基准测试中实现的 1.74 exaFLOPS 是基于 FP64 精度。实际上，El Cap 的理论峰值性能接近 2.74 FP64 exaFLOPS。

如果换算成 FP8 精度，这台由 AMD 驱动的 HPE-Cray 超级计算机在密集工作负载下的理论峰值性能约为 87 exaFLOPS，而在稀疏工作负载下可达到其两倍。Google 营销将 42.5 exaFLOPS 的 FP8 与 1.74 exaFLOPS 的 FP64 进行对比是不恰当的，实际应该是 42.5 对比至少 87，这意味着 El Capitan 的性能明显优于 9,216 个 TPU v7 芯片组成的集群。所谓 24 倍的说法在我们看来并不准确。

当我们就此询问 Google 时，一位发言人表示，云计算巨头只是在对比他们当时能找到的 El Capitan 最好的数据。这让我们不禁联想到 Gemini AI 的风格。

"我们没有 El Capitan 在 FP8 精度下的持续性能数据，"发言人告诉我们。

"我们做出这个对比的假设是基于 El Capitan 在 AI 工作负载方面展示了他们的最佳算力数据，因为他们也同样关注 AI。

虽然 El Capitan 可能支持 FP8，但在没有额外的持续性能数据的情况下，我们无法进行对比。我们不能简单地假设降低精度就能线性提升峰值性能。此外需要注意的是，Ironwood 可以通过我们的高速 Jupiter 数据中心网络扩展到超过单个集群，最多支持 400,000 个芯片或 43 个 TPU v7x 集群。"

撇开这些对比不谈，Google 最新的代号为 Ironwood 的 TPU 相比去年的 Trillium 有了重大升级。

每个 TPU 都配备了高达 192GB 的高带宽内存 (HBM)，带宽在 7.2-7.4TB/s 之间（发布公告中文字部分和图片分别引用了这两个数字）。该芯片主要面向大语言模型 (LLM) 推理设计。

如我们之前讨论过的，内存带宽是推理工作负载的主要瓶颈。更大的内存容量意味着芯片可以容纳更大的模型。在原始浮点性能方面，Google 表示每个液冷 TPU v7 能够达到 4.6 petaFLOPS 的密集 FP8 运算能力。这使其性能与 Nvidia 的 Blackwell B200 处于同一水平。

除了其标志性的张量处理引擎外，Ironwood 还配备了 Google 的 SparseCore，专门用于加速排名和推荐系统中常见的"超大规模嵌入"。

这些芯片的更多细节可以在 The Next Platform 上找到，预计将于今年晚些时候全面上市。

为了构建这些集群，每个 TPU 都配备了专门的芯片间互联 (ICI)，Google 表示其双向每链路带宽可达 1.2 terabits/s，比 Trillium 提升了 1.5 倍。

据 Google 表示，9,216 芯片的大型集群在满负载运行时将消耗约 10 兆瓦的功率。Google 没有透露每个芯片的 TDP，但这表明其功耗可能在 700W 到 1kW 之间，与同级别的 GPU 相当。虽然这听起来功耗很大，但 Google 强调这些芯片的效率仍比 2015 年第一代 TPU 提高了 30 倍，性能每瓦比去年的芯片提高了 2 倍。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。