TPU v5e

本文档介绍了 Cloud TPU v5e 的架构和支持的配置。

TPU v5e 支持单主机和多主机训练，以及单主机推理。使用 Sax 支持多主机推理。如需了解详情，请参阅 Cloud TPU 推理。

系统架构

每个 v5e 芯片包含一个 TensorCore。每个 TensorCore 都有四个矩阵乘法单元 (MXU)、一个向量单元和一个标量单元。

下图展示了 TPU v5e 芯片。

v5e 芯片示意图

下表展示了 v5e 的主要芯片规格及其值。

芯片主要规格	v5e 值
每个芯片的峰值计算能力 (bf16)	197 TFLOPs
HBM2 容量和带宽	16 GB，819 GBps
芯片间互联带宽	1600 Gbps

下表展示了 v5e 的 Pod 规范及其值。

关键 Pod 规范	v5e 值
TPU Pod 大小	256 个芯片
互连拓扑	2D 环面
每个 Pod 的峰值计算能力	100 PetaOps（Int8）
每个 Pod 的全归约带宽	51.2 TB/s
每个 Pod 的对分带宽	1.6 TB/s
每个 Pod 的数据中心网络带宽	6.4 Tbps

配置

Cloud TPU v5e 是一款集训练和推理（服务）于一体的产品。如需区分训练环境和推理环境，请在创建 Google Kubernetes Engine (GKE) 节点池时，使用 TPU API 的 AcceleratorType 参数或 --machine-type 标志。

训练作业针对吞吐量和可用性进行了优化，而服务作业则针对延迟时间进行了优化。在为服务而预配的 TPU 上运行的训练作业的可用性可能较低，同样，在为训练而预配的 TPU 上执行的服务作业的延迟时间可能较长。

您可以使用 AcceleratorType 指定要使用的 TensorCore 数量。您可以在使用 gcloud CLI 或 Google Cloud 控制台创建 TPU 时指定 AcceleratorType。您为 AcceleratorType 指定的值是一个字符串，格式为：v$VERSION_NUMBER-$CHIP_COUNT。

v5e 支持以下 2D 切片形状：

拓扑	TPU 芯片数量	主机数量
1x1	1	1/8
2x2	4	1/2
2x4	8	1
4x4	16	2
4x8	32	4
8x8	64	8
8x16	128	16
16x16	256	32

虚拟机类型

v5e TPU 切片中的每个 TPU 虚拟机都包含 1 个、4 个或 8 个芯片。在 4 芯片及更小的切片中，所有 TPU 芯片共享同一非统一内存访问 (NUMA) 节点。

对于 8 芯片 v5e TPU 虚拟机，CPU-TPU 通信在 NUMA 分区内会更高效。例如，在下图中，CPU0-Chip0 通信将比 CPU0-Chip4 通信更快。

NUMA 节点通信

下表比较了 TPU v5e 虚拟机类型：

虚拟机类型	机器类型 (GKE API)	每个虚拟机的 vCPU 数量	每个虚拟机的 RAM (GB)	每个虚拟机的 NUMA 节点数
单芯片虚拟机	`ct5lp-hightpu-1t`	24	48	1
4 芯片虚拟机	`ct5lp-hightpu-4t`	112	192	1
8 芯片虚拟机	`ct5lp-hightpu-8t`	224	384	2

用于服务的 Cloud TPU v5e 类型

单主机服务最多支持 8 个 v5e 芯片。支持以下配置：1x1、2x2 和 2x4 切片。每个切片分别有 1 个、4 个和 8 个芯片。

支持提供服务的 TPU v5e 配置：1x1、2x2 和 2x4。

如需为服务作业预配 TPU，请在 CLI 或 API TPU 创建请求中使用以下加速器类型之一：

AcceleratorType (TPU API)	机器类型 (GKE API)
`v5litepod-1`	`ct5lp-hightpu-1t`
`v5litepod-4`	`ct5lp-hightpu-4t`
`v5litepod-8`	`ct5lp-hightpu-8t`

以下命令会创建一个具有 8 个 v5e 芯片的 v5e TPU 切片，用于提供服务：

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-central1-a \
    --accelerator-type=v5litepod-8 \
    --version=v2-alpha-tpuv5-lite

如需详细了解如何管理 TPU，请参阅管理 TPU。如需详细了解 Cloud TPU 的系统架构，请参阅系统架构。

使用 Sax 可在超过 8 个 v5e 芯片上提供服务，也称为多主机服务。如需了解详情，请参阅 Cloud TPU 推理。

用于训练的 Cloud TPU v5e 类型

支持最多 256 个芯片的训练。

如需为 v5e 训练作业预配 TPU，请在 CLI 或 API TPU 创建请求中使用以下加速器类型之一：

AcceleratorType (TPU API)	机器类型 (GKE API)	拓扑
`v5litepod-16`	`ct5lp-hightpu-4t`	4x4
`v5litepod-32`	`ct5lp-hightpu-4t`	4x8
`v5litepod-64`	`ct5lp-hightpu-4t`	8x8
`v5litepod-128`	`ct5lp-hightpu-4t`	8x16
`v5litepod-256`	`ct5lp-hightpu-4t`	16x16

以下命令会创建一个具有 256 个 v5e 芯片的 v5e TPU 切片，用于训练：

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5litepod-256 \
    --version=v2-alpha-tpuv5-lite

如需详细了解如何管理 TPU，请参阅管理 TPU。如需详细了解 Cloud TPU 的系统架构，请参阅系统架构。