查看 Vertex AI 推理 DCGM 指标

本页介绍了如何探索与 Vertex AI 推理端点关联的 NVIDIA 数据中心 GPU 管理器 (DCGM) 指标。

什么是 DCGM

NVIDIA 数据中心 GPU 管理器 (DCGM) 是 NVIDIA 提供的一组工具,可让您管理和监控 NVIDIA GPU。如果端点使用受支持的 GPU,Vertex AI Inference 会自动将 Vertex AI DCGM 指标导出到 Cloud Monitoring。这些指标可让您全面了解 GPU 利用率、性能和健康状况。

前提条件

在开始之前,请确保您的项目已启用 Cloud Monitoring。如需了解详情,请参阅启用 Monitoring API

使用 DCGM 指标

如需在 Metrics Explorer 中查看 DCGM 指标,请执行以下操作:

  1. 前往 Google Cloud 控制台中的 Metrics Explorer 页面。

    转到 Metrics Explorer

  2. 选择一个指标下,选择 Prometheus Target

  3. 活跃指标类别下,选择 Vertex

  4. 活跃指标下,选择所需的指标。

  5. 点击应用

您还可以使用 GrafanaPrometheus API 或界面查询指标。

配额

DCGM 指标使用 Cloud Monitoring API 的每分钟的时序注入请求数配额。在启用指标包之前,请检查该配额的最近峰值用量。如果您即将达到该配额上限,可以申请提高配额上限

Vertex AI DCGM 指标

此表中的 Cloud Monitoring 指标名称必须以 prometheus.googleapis.com/ 为前缀。表中的条目已省略该前缀。

除了 prometheus_target 受监控的资源上的标签之外,Vertex AI 上收集的所有 DCGM 指标都附加了以下标签:

GPU 标签:

  • gpu_model:GPU 设备型号,例如 NVIDIA L4
  • gpu_uuid:GPU 设备 UUID。
  • gpu_i_id:NVIDIA 多实例 GPU (MIG) 实例 ID。

Vertex AI 标签:

  • deployed_model_id:已部署的模型的 ID,用于处理推理请求。
  • model_display_name:已部署模型的显示名称。
  • replica_id:与已部署的模型副本(Pod 名称)对应的唯一 ID。
  • endpoint_id:模型端点的 ID。
  • endpoint_display_name:模型端点的显示名称。
  • product:Vertex AI 下的功能名称。始终为 Online Inference
PromQL 指标名称
Cloud Monitoring 指标名称
种类、类型、单位
受监控的资源
说明
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target 可用帧缓冲区(以 MB 为单位)。
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target GPU 的总帧缓冲区(以 MB 为单位)。
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target 已用帧缓冲区大小(以 MB 为单位)。
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target 设备的当前温度读数(以摄氏度 [°C] 为单位)。
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target GPU 利用率(以百分比表示)。
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target 内存利用率 (%)
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target 设备的内存温度(以摄氏度 [°C] 为单位)。
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target 设备的耗电量(以瓦特为单位)。
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target SM 时钟频率(以 MHz 为单位)。
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target 自上次重新加载驱动程序以来 GPU 的总能耗(以 mJ 为单位)。
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target 设备内存接口主动发送或接收数据的周期所占的比例。
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target 图形引擎处于活跃状态的时间所占的百分比。
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target 活跃的 NvLink 接收(读取)数据的速率(以字节为单位),包括标头和载荷。
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target 活跃的 NvLink 发送数据的速率(以字节为单位),包括标头和载荷。
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target 活跃 PCIe 接收(读取)数据的速率(以字节为单位),包括标头和载荷。
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target 活跃 PCIe 发送数据的速率(以字节为单位),包括标头和载荷。
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target fp16 管道处于活跃状态的周期占比。
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target fp32 管道处于活跃状态的周期占比。
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target fp64 管道处于活跃状态的周期占比。
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target 任意张量管道处于活跃状态的周期的比例。
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target 分配了至少 1 个 warp 的 SM 的周期比例。

支持的 GPU

除以下 GPU 以外,所有 NVIDIA GPU 均受支持(由于资源限制):

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

后续步骤