本頁面說明如何探索與 Vertex AI Inference 端點相關的 NVIDIA Data Center GPU Manager (DCGM) 指標。
什麼是 DCGM
NVIDIA Data Center GPU Manager (DCGM) 是 NVIDIA 提供的一組工具,可讓您管理及監控 NVIDIA GPU。如果端點使用支援的 GPU,Vertex AI Inference 會自動將 Vertex AI DCGM 指標匯出至 Cloud Monitoring。這些指標可全面呈現 GPU 使用率、效能和健康狀態。
必要條件
開始前,請確認專案已啟用 Cloud Monitoring。詳情請參閱「啟用 Monitoring API」。
使用 DCGM 指標
如要在 Metrics Explorer 中查看 DCGM 指標,請按照下列步驟操作:
前往 Google Cloud 控制台的「Metrics Explorer」頁面。
在「選取指標」下方,選取「Prometheus 目標」。
在「Active metric categories」(使用中的指標類別) 下方,選取「Vertex」。
在「有效指標」下方,選取所需指標。
按一下 [套用]。
您也可以使用 Grafana,或 Prometheus API 或 UI 查詢指標。
配額
DCGM 指標會耗用 Cloud Monitoring API 的「每分鐘時間序列擷取要求數」配額。啟用指標套裝組合前,請先查看該配額的近期尖峰用量。如果即將達到配額限制,可以要求增加配額限制。
Vertex AI DCGM 指標
這個表格中的 Cloud Monitoring 指標名稱必須加上 prometheus.googleapis.com/
前置字元。表格中的項目已省略該前置字串。
除了prometheus_target
受監控資源的標籤外,Vertex AI 上收集的所有 DCGM 指標都會附上下列標籤:
GPU 標籤:
gpu_model
:GPU 裝置型號,例如NVIDIA L4
。gpu_uuid
:GPU 裝置 UUID。gpu_i_id
:NVIDIA 多重執行個體 GPU (MIG) 執行個體 ID。
Vertex AI 標籤:
-
deployed_model_id
:已部署模型的 ID,用於處理推論要求。 model_display_name
:已部署模型的顯示名稱。-
replica_id
:對應已部署模型副本的專屬 ID (Pod 名稱)。 endpoint_id
:模型端點的 ID。endpoint_display_name
:模型端點的顯示名稱。-
product
:Vertex AI 底下的功能名稱。這項值一律為Online Inference
。
PromQL 指標名稱 Cloud Monitoring 指標名稱 |
|
---|---|
種類、類型、單位
受監控的資源 | 說明 |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
以 MB 為單位的可用影格緩衝區。 |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
GPU 的訊框緩衝區總量,以 MB 為單位。 |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
以 MB 為單位的已用框架緩衝區。 |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
裝置目前的溫度讀數 (以攝氏度為單位)。 |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
GPU 使用率 (以百分比表示)。 |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
記憶體使用率 (以百分比表示)。 |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
裝置的記憶體溫度 (以攝氏度為單位)。 |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
裝置的耗電量 (以瓦特為單位)。 |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
SM 時脈頻率 (以 MHz 為單位)。 |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE 、DOUBLE 、1
prometheus_target
|
自上次重新載入驅動程式以來,GPU 的能源消耗量總和 (單位為毫焦耳)。 |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
裝置記憶體介面主動傳送或接收資料的週期比例。 |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
圖形引擎處於使用中狀態的時間比率。 |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
以位元組為單位的有效 NvLink rx (讀取) 資料速率,包括標頭和酬載。 |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
以位元組為單位的有效 NvLink tx (傳輸) 資料速率,包括標頭和酬載。 |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
以位元組為單位的有效 PCIe rx (讀取) 資料速率,包括標頭和酬載。 |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
以位元組為單位,表示有效 PCIe 傳輸資料的速率,包括標頭和酬載。 |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
fp16 管道處於使用中狀態的週期占比。 |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
fp32 管道處於使用中狀態的週期占比。 |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
fp64 管道處於活躍狀態的週期比例。 |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
任何張量管道處於使用中狀態的週期比例。 |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
SM 至少有 1 個經指派的經紗的週期比例。 |
支援的 GPU
系統支援所有 NVIDIA GPU,但因資源限制,下列 GPU 除外:
後續步驟
- 進一步瞭解 Metrics Explorer。