診斷 GKE 叢集中的 Dataproc

Dataproc 提供 gcloud CLI dataproc clusters diagnose 指令,可協助排解 Dataproc on GKE 叢集和工作問題。這項指令會將叢集相關的設定檔、記錄和輸出內容收集並封存至封存檔,然後將封存檔上傳至您建立 Dataproc on GKE 叢集時指定的 Cloud Storage 暫存值區。

診斷封存檔案

下表列出 dataproc clusters diagnose 指令封存檔案中包含的指標和其他資訊。

系統資訊

項目 封存位置
GKE 節點指標,虛擬 Dataproc on GKE Pod 在其中執行:
  • CPU 使用率
  • 記憶體用量
/system/NODE_NAME.json
執行中 Pod 的網路指標和檔案系統狀態:
  • CPU 使用率
  • 記憶體用量
  • 網路狀態
  • 檔案系統狀態
/system/POD_NAME.json

設定資訊

項目 封存位置
叢集 ConfigMap /conf/configmap
Kubernetes Deployment /conf/deployment
角色型存取權控管 (RBAC)
  • /conf/role
  • /conf/rolebind
  • /conf/serviceaccount

記錄

項目 封存位置
代理程式記錄 /logs/agent.log
Spark 引擎記錄 /logs/sparkengine.log
過去 24 小時內執行的 Spark 驅動程式和完成的工作記錄 /logs/DRIVER_ID

工作和 Pod 資訊

項目 封存位置
JobAttempt 物件 /jobattempts
Kubernetes Pod 物件 /pods

後續步驟