本页介绍了如何探索与 Vertex AI 推理端点关联的 NVIDIA 数据中心 GPU 管理器 (DCGM) 指标。
什么是 DCGM
NVIDIA 数据中心 GPU 管理器 (DCGM) 是 NVIDIA 提供的一组工具,可让您管理和监控 NVIDIA GPU。如果端点使用受支持的 GPU,Vertex AI Inference 会自动将 Vertex AI DCGM 指标导出到 Cloud Monitoring。这些指标可让您全面了解 GPU 利用率、性能和健康状况。
前提条件
在开始之前,请确保您的项目已启用 Cloud Monitoring。如需了解详情,请参阅启用 Monitoring API。
使用 DCGM 指标
如需在 Metrics Explorer 中查看 DCGM 指标,请执行以下操作:
前往 Google Cloud 控制台中的 Metrics Explorer 页面。
在选择一个指标下,选择 Prometheus Target。
在活跃指标类别下,选择 Vertex。
在活跃指标下,选择所需的指标。
点击应用。
您还可以使用 Grafana 或 Prometheus API 或界面查询指标。
配额
DCGM 指标使用 Cloud Monitoring API 的每分钟的时序注入请求数配额。在启用指标包之前,请检查该配额的最近峰值用量。如果您即将达到该配额上限,可以申请提高配额上限。
Vertex AI DCGM 指标
此表中的 Cloud Monitoring 指标名称必须以 prometheus.googleapis.com/
为前缀。表中的条目已省略该前缀。
除了 prometheus_target
受监控的资源上的标签之外,Vertex AI 上收集的所有 DCGM 指标都附加了以下标签:
GPU 标签:
gpu_model
:GPU 设备型号,例如NVIDIA L4
。gpu_uuid
:GPU 设备 UUID。gpu_i_id
:NVIDIA 多实例 GPU (MIG) 实例 ID。
Vertex AI 标签:
-
deployed_model_id
:已部署的模型的 ID,用于处理推理请求。 model_display_name
:已部署模型的显示名称。-
replica_id
:与已部署的模型副本(Pod 名称)对应的唯一 ID。 endpoint_id
:模型端点的 ID。endpoint_display_name
:模型端点的显示名称。-
product
:Vertex AI 下的功能名称。始终为Online Inference
。
PromQL 指标名称 Cloud Monitoring 指标名称 |
|
---|---|
种类、类型、单位
受监控的资源 | 说明 |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
可用帧缓冲区(以 MB 为单位)。 |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
GPU 的总帧缓冲区(以 MB 为单位)。 |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
已用帧缓冲区大小(以 MB 为单位)。 |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
设备的当前温度读数(以摄氏度 [°C] 为单位)。 |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
GPU 利用率(以百分比表示)。 |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
内存利用率 (%) |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
设备的内存温度(以摄氏度 [°C] 为单位)。 |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
设备的耗电量(以瓦特为单位)。 |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
SM 时钟频率(以 MHz 为单位)。 |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE 、DOUBLE 、1
prometheus_target
|
自上次重新加载驱动程序以来 GPU 的总能耗(以 mJ 为单位)。 |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
设备内存接口主动发送或接收数据的周期所占的比例。 |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
图形引擎处于活跃状态的时间所占的百分比。 |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
活跃的 NvLink 接收(读取)数据的速率(以字节为单位),包括标头和载荷。 |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
活跃的 NvLink 发送数据的速率(以字节为单位),包括标头和载荷。 |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
活跃 PCIe 接收(读取)数据的速率(以字节为单位),包括标头和载荷。 |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
活跃 PCIe 发送数据的速率(以字节为单位),包括标头和载荷。 |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
fp16 管道处于活跃状态的周期占比。 |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
fp32 管道处于活跃状态的周期占比。 |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
fp64 管道处于活跃状态的周期占比。 |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
任意张量管道处于活跃状态的周期的比例。 |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
分配了至少 1 个 warp 的 SM 的周期比例。 |
支持的 GPU
除以下 GPU 以外,所有 NVIDIA GPU 均受支持(由于资源限制):
后续步骤
- 详细了解 Metrics Explorer。