在 Google Cloud 中發揮 Spark 的最大潛力。您可以選擇無伺服器的簡便性,或是叢集控制功能,並透過高速處理、AI 輔助和順暢的開放式 lakehouse 連線能力,進一步提升效能。
優點
透過無伺服器 Spark 簡化作業
Google Cloud Serverless for Apache Spark 可立即自動調度資源,且幾乎不需要任何設定。Lightning Engine (預先發布版) 可將查詢效能提升 3.6 倍*。Dataplex Universal Catalog 整合中繼資料,簡化作業。
以您偏好的方式執行 Spark
不同的需求,需要不同的做法。Google Cloud 提供多種選項,您可以彈性地為 Spark 工作負載選擇無伺服器、代管叢集和運算叢集。
主要功能與特色
使用 Google Cloud Serverless for Apache Spark,透過 Lightning Engine* 和 Gemini 提升工作效率和效能。這個體驗是高度整合的環境,可直接在 BigQuery 中執行 Apache Spark 和 SQL 工作負載。這項服務提供統一的安全防護機制、使用 BigLake metastore 的執行階段中繼資料,以及透過 Dataplex Universal Catalog 進行治理。透過整合的 CI/CD 和筆記本中的 Gemini 功能,並省去 Apache Spark 叢集的管理作業,盡可能提高工作效率。
* 查詢速度是依據 TPC-DS 標準和 TPC-H 標準估算,因此無法與已發布的 TPC-DS 標準和 TPC-H 標準結果比較,因為這些執行作業未完全符合 TPC-DS 標準和 TPC-H 標準規格的要求。
Dataproc 是擴充性極高的全代管服務,可用於部署及操作專屬的 Spark、Hadoop,以及 30 多種開放原始碼工具的龐大生態系統。這個解決方案與更廣大的 Google Cloud 產品和服務整合,包括 Dataproc on Google Compute Engine 適用的 Lightning Engine (進階級),因此非常適合用於翻新 data lake、建立高效率的 ETL pipeline,以及推動安全的大規模資料科學計畫,尤其是在叢集控制方面。
無論您偏好 Google Cloud Serverless for Apache Spark 可免去作業負擔的簡便性,還是代管 Dataproc 叢集的控管機制,都能加速整個機器學習生命週期。優點:
透過 Vertex AI,順暢地開發及運作資料科學用途的 Spark。使用 Vertex AI Workbench 中的 Spark 進行互動式開發,並享有內建安全防護機制和 Gemini 的協助。將 Spark 處理作業整合至 Vertex AI Pipelines,以利進行穩健的 MLOps。
Google Cloud 的 Spark 產品與 Apache Iceberg、Delta Lake 和 Hudi 等開放原始碼格式相容性極佳。運用 BigLake metastore 或 Dataproc metastore,以統一的方式管理各種格式的中繼資料,並採用開放式 lakehouse 架構,選擇所需的 Spark 引擎來處理資料。
Apache Spark 是 Apache Software Foundation 的商標。