本文說明如何設定 Google Kubernetes Engine 部署作業,以便使用 Google Cloud Managed Service for Prometheus 從 NVIDIA Data Center GPU Manager 收集指標。本文將說明如何執行下列操作:
- 設定 DCGM 的匯出工具,以回報指標。
- 為 Managed Service for Prometheus 設定 PodMonitoring 資源,以收集匯出的指標。
只有在使用 Managed Service for Prometheus 的 代管收集作業時,才適用這些操作說明。如果您使用自行部署的收集作業,請參閱 DCGM Exporter 的來源存放區,瞭解安裝資訊。
這些操作說明僅供參考,適用於大多數 Kubernetes 環境。如要瞭解代管 DCGM 服務,請參閱「 收集及查看 DCGM 指標」。
如果因安全或機構政策限制而無法安裝應用程式或匯出工具,建議您參閱開放原始碼文件尋求支援。
如要瞭解 NVIDIA Data Center GPU Manager,請參閱 NVIDIA DCGM。
必要條件
如要使用 Managed Service for Prometheus 和代管收集作業,從 DCGM 收集指標,部署作業必須符合下列規定:
- 叢集必須執行 Google Kubernetes Engine 1.28.15-gke.2475000 以上版本。
- 您必須執行 Managed Service for Prometheus,並啟用代管收集作業。詳情請參閱「 開始使用代管集合」一文。
確認您有 足夠的 NVIDIA GPU 配額。
如要列舉 GKE 叢集中的 GPU 節點及其 GPU 類型,請在相關叢集中執行下列指令:
kubectl get nodes -l cloud.google.com/gke-gpu -o jsonpath='{range .items[*]}{@.metadata.name}{" "}{@.metadata.labels.cloud\.google\.com/gke-accelerator}{"\n"}{end}'
請注意,如果自動安裝功能已停用,或您的 GKE 版本不支援這項功能,您可能必須在節點上 安裝相容的 NVIDIA GPU 驅動程式。如要確認 NVIDIA GPU 裝置外掛程式是否正在執行,請執行下列指令:
kubectl get pods -n kube-system | grep nvidia-gpu-device-plugin
安裝 DCGM 匯出工具
建議您使用下列設定安裝 DCGM 匯出工具 DCGM-Exporter
:
使用下列指令設定通訊埠轉送:
kubectl -n gmp-public port-forward POD_NAME 9400
在另一個終端機工作階段中,使用瀏覽器或
curl
公用程式存取端點localhost:9400/metrics
。
您可以自訂 ConfigMap 區段,選取要發布的 GPU 指標。
或者,您也可以考慮使用官方 Helm 資訊套件安裝 DCGM Exporter。
如要套用本機檔案的設定變更,請執行下列指令:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
您也可以使用 Terraform 管理設定。
定義 PodMonitoring 資源
如要探索目標,Managed Service for Prometheus Operator 需要與相同命名空間中的 DCGM Exporter 相對應的 PodMonitoring 資源。
您可以使用下列 PodMonitoring 設定:
如要套用本機檔案的設定變更,請執行下列指令:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
您也可以使用 Terraform 管理設定。
驗證設定
您可以使用 Metrics Explorer 驗證是否已正確設定 DCGM Exporter。Cloud Monitoring 可能需要一到兩分鐘才能擷取指標。
如要確認指標已擷取,請按照下列步驟操作:
-
前往 Google Cloud 控制台的 leaderboard「Metrics Explorer」頁面:
如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果。
- 在查詢建構工具窗格的工具列中,選取名稱為 code MQL 或 code PromQL 的按鈕。
- 確認已在「Language」(語言) 切換按鈕中選取「PromQL」。語言切換按鈕位於同一工具列,可供你設定查詢格式。
- 輸入並執行下列查詢:
DCGM_FI_DEV_GPU_UTIL{cluster="CLUSTER_NAME", namespace="gmp-public"}
疑難排解
如要瞭解如何排解指標擷取問題,請參閱「 排解擷取端問題」一文中的「 收集匯出工具資料時發生問題」一節。