在 Google Cloud 中使用 Apache Spark

在 Google Cloud 中發揮 Spark 的最大潛力。您可以選擇無伺服器的簡便性,或是叢集控制功能,並透過高速處理、AI 輔助和順暢的開放式 lakehouse 連線能力,進一步提升效能。

優點

提高開發人員的效率,更快取得資料深入分析結果

讓所有資料使用者都能順暢使用 Spark

透過 BigQueryVertex AI 和 IDE,使用無伺服器或代管叢集輕鬆執行 Spark。運用 Gemini 的程式碼和作業功能,省去自訂整合作業、簡化 ETL 到機器學習的工作流程,並提高工作效率。


透過無伺服器 Spark 簡化作業

Google Cloud Serverless for Apache Spark 可立即自動調度資源,且幾乎不需要任何設定。Lightning Engine (預先發布版) 可將查詢效能提升 3.6 倍*。Dataplex Universal Catalog 整合中繼資料,簡化作業。

以您偏好的方式執行 Spark

不同的需求,需要不同的做法。Google Cloud 提供多種選項,您可以彈性地為 Spark 工作負載選擇無伺服器、代管叢集和運算叢集。

主要功能與特色

在 Google Cloud 中執行 Spark 的強大方法

Google Cloud Serverless for Apache Spark

使用 Google Cloud Serverless for Apache Spark,透過 Lightning Engine* 和 Gemini 提升工作效率和效能。這個體驗是高度整合的環境,可直接在 BigQuery 中執行 Apache Spark 和 SQL 工作負載。這項服務提供統一的安全防護機制、使用 BigLake metastore 的執行階段中繼資料,以及透過 Dataplex Universal Catalog 進行治理。透過整合的 CI/CD 和筆記本中的 Gemini 功能,並省去 Apache Spark 叢集的管理作業,盡可能提高工作效率。

* 查詢速度是依據 TPC-DS 標準TPC-H 標準估算,因此無法與已發布的 TPC-DS 標準TPC-H 標準結果比較,因為這些執行作業未完全符合 TPC-DS 標準TPC-H 標準規格的要求。

透過 Dataproc 使用代管的 Spark、Hadoop 和 OSS 叢集

Dataproc 是擴充性極高的全代管服務,可用於部署及操作專屬的 Spark、Hadoop,以及 30 多種開放原始碼工具的龐大生態系統。這個解決方案與更廣大的 Google Cloud 產品和服務整合,包括 Dataproc on Google Compute Engine 適用的 Lightning Engine (進階級),因此非常適合用於翻新 data lake、建立高效率的 ETL pipeline,以及推動安全的大規模資料科學計畫,尤其是在叢集控制方面。

在 Google Cloud 中使用 Apache Spark 的資料科學

無論您偏好 Google Cloud Serverless for Apache Spark 可免去作業負擔的簡便性,還是代管 Dataproc 叢集的控管機制,都能加速整個機器學習生命週期。優點:

  • 完美整合:輕鬆連結 BigQuery 以存取資料,並連結 Vertex AI 以執行 MLOps,建構端對端資料科學 pipeline。
  • 開發人員工作效率:BigQuery StudioVertex AI Workbench 等筆記本環境中,運用 Gemini 取得程式碼洞察資料和相關協助。
  • 支援 AI/機器學習技術:利用預先封裝的機器學習程式庫,以及無伺服器 Spark 和 Dataproc 叢集的 GPU 加速功能,執行嚴苛的訓練和推論任務。
  • 加快疊代速度:無論您的選擇為何,都能專注於開發和實驗。

透過 Vertex AI 使用 Spark

透過 Vertex AI,順暢地開發及運作資料科學用途的 Spark。使用 Vertex AI Workbench 中的 Spark 進行互動式開發,並享有內建安全防護機制和 Gemini 的協助。將 Spark 處理作業整合至 Vertex AI Pipelines,以利進行穩健的 MLOps。

適用於 lakehouse 的開放原始碼資料表格式支援

Google Cloud 的 Spark 產品與 Apache Iceberg、Delta Lake 和 Hudi 等開放原始碼格式相容性極佳。運用 BigLake metastoreDataproc metastore,以統一的方式管理各種格式的中繼資料,並採用開放式 lakehouse 架構,選擇所需的 Spark 引擎來處理資料。


Apache Spark 是 Apache Software Foundation 的商標。

展開下一步行動

告訴我們您要解決的問題,Google Cloud 專家會協助您找到最合適的解決方案。

Google Cloud