此页面由 Cloud Translation API 翻译。

查看 Vertex AI 推理 DCGM 指标

本页介绍了如何探索与 Vertex AI 推理端点关联的 NVIDIA 数据中心 GPU 管理器 (DCGM) 指标。

什么是 DCGM

NVIDIA 数据中心 GPU 管理器 (DCGM) 是 NVIDIA 提供的一组工具，可让您管理和监控 NVIDIA GPU。如果端点使用受支持的 GPU，Vertex AI Inference 会自动将 Vertex AI DCGM 指标导出到 Cloud Monitoring。这些指标可让您全面了解 GPU 利用率、性能和健康状况。

前提条件

在开始之前，请确保您的项目已启用 Cloud Monitoring。如需了解详情，请参阅启用 Monitoring API。

使用 DCGM 指标

如需在 Metrics Explorer 中查看 DCGM 指标，请执行以下操作：

前往 Google Cloud 控制台中的 Metrics Explorer 页面。

转到 Metrics Explorer
在选择一个指标下，选择 Prometheus Target。
在活跃指标类别下，选择 Vertex。
在活跃指标下，选择所需的指标。
点击应用。

您还可以使用 Grafana 或 Prometheus API 或界面查询指标。

配额

DCGM 指标使用 Cloud Monitoring API 的每分钟的时序注入请求数配额。在启用指标包之前，请检查该配额的最近峰值用量。如果您即将达到该配额上限，可以申请提高配额上限。

Vertex AI DCGM 指标

此表中的 Cloud Monitoring 指标名称必须以 prometheus.googleapis.com/ 为前缀。表中的条目已省略该前缀。

除了 prometheus_target 受监控的资源上的标签之外，Vertex AI 上收集的所有 DCGM 指标都附加了以下标签：

GPU 标签：

gpu_model：GPU 设备型号，例如 NVIDIA L4。
gpu_uuid：GPU 设备 UUID。
gpu_i_id：NVIDIA 多实例 GPU (MIG) 实例 ID。

Vertex AI 标签：

deployed_model_id：已部署的模型的 ID，用于处理推理请求。
model_display_name：已部署模型的显示名称。
replica_id：与已部署的模型副本（Pod 名称）对应的唯一 ID。
endpoint_id：模型端点的 ID。
endpoint_display_name：模型端点的显示名称。
product：Vertex AI 下的功能名称。始终为 Online Inference。

PromQL 指标名称 Cloud Monitoring 指标名称
种类、类型、单位受监控的资源	说明
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	可用帧缓冲区（以 MB 为单位）。
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	GPU 的总帧缓冲区（以 MB 为单位）。
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	已用帧缓冲区大小（以 MB 为单位）。
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	设备的当前温度读数（以摄氏度 [°C] 为单位）。
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	GPU 利用率（以百分比表示）。
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	内存利用率 (%)
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	设备的内存温度（以摄氏度 [°C] 为单位）。
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	设备的耗电量（以瓦特为单位）。
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	SM 时钟频率（以 MHz 为单位）。
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`、`DOUBLE`、`1` prometheus_target	自上次重新加载驱动程序以来 GPU 的总能耗（以 mJ 为单位）。
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	设备内存接口主动发送或接收数据的周期所占的比例。
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	图形引擎处于活跃状态的时间所占的百分比。
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	活跃的 NvLink 接收（读取）数据的速率（以字节为单位），包括标头和载荷。
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	活跃的 NvLink 发送数据的速率（以字节为单位），包括标头和载荷。
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	活跃 PCIe 接收（读取）数据的速率（以字节为单位），包括标头和载荷。
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	活跃 PCIe 发送数据的速率（以字节为单位），包括标头和载荷。
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	fp16 管道处于活跃状态的周期占比。
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	fp32 管道处于活跃状态的周期占比。
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	fp64 管道处于活跃状态的周期占比。
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	任意张量管道处于活跃状态的周期的比例。
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	分配了至少 1 个 warp 的 SM 的周期比例。

支持的 GPU

除以下 GPU 以外，所有 NVIDIA GPU 均受支持（由于资源限制）：

后续步骤

详细了解 Metrics Explorer。

查看 Vertex AI 推理 DCGM 指标 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。