在 Google Cloud 上充分发挥 Spark 的潜力。选择无服务器的便捷性或集群控制,借助高速处理、AI 辅助和无缝的开放式湖仓一体连接,提升数据处理速度。
优势
通过无服务器 Spark 简化运维
Google Cloud Serverless for Apache Spark 提供即时自动扩缩和近乎零配置。借助 Lightning Engine(预览版),将查询性能提升 3.6 倍*。Dataplex Universal Catalog 可统一元数据,简化了操作。
以您首选的方式运行 Spark
并没有一种通用的选项。Google Cloud 为您提供了灵活的选择,您可以为 Spark 工作负载选择无服务器、托管式集群和计算集群。
主要特性
使用 Google Cloud Serverless for Apache Spark 通过 Lightning Engine* 和 Gemini 提高工作效率和绩效。这种体验是一种深度集成的环境,可直接从 BigQuery 运行 Apache Spark 和 SQL 工作负载。它使用 BigLake metastore 提供统一的安全性和运行时元数据,并通过 Dataplex Universal Catalog 进行治理。通过集成的 CI/CD、笔记本中的 Gemini 最大限度地提高工作效率,并消除 Apache Spark 集群管理。
* 这些查询源自 TPC-DS 标准和 TPC-H 标准,因此无法与已发布的 TPC-DS 标准和 TPC-H 标准结果进行比较,因为这些运行不符合 TPC-DS 标准和 TPC-H 标准规范的所有要求。
Dataproc 是一项具有高度可扩缩的全托管式服务,用于部署和运营专用 Spark、Hadoop 以及 30 多个开源工具的庞大生态系统。它与更广泛的 Google Cloud 产品和服务集成,包括适用于 Google Compute Engine 上的 Dataproc(高级层级)的 Lightning Engine,非常适合用于数据湖现代化改造、高效的 ETL 流水线和安全的大规模数据科学计划,其中集群控制至关重要。
无论您是喜欢 Google Cloud Serverless for Apache Spark 的零运维简便性,还是更倾向于托管式 Dataproc 集群的控制,都可以加快整个机器学习生命周期。受益于:
使用 Vertex AI 无缝开发和运行数据科学用途的 Spark。使用 Vertex AI Workbench 的 Spark 进行交互式开发,具有内置安全性和 Gemini 助手功能。将 Spark 处理集成到 Vertex AI Pipelines 中,实现强大的 MLOps。
Google Cloud 的 Spark 产品与 Apache Iceberg、Delta Lake 和 Hudi 等开源格式具有强大的兼容性。利用 BigLake metastore 或 Dataproc Metastore 跨不同格式统一管理元数据,实现开放式湖仓一体架构,让您可以使用自己选择的 Spark 引擎处理数据。
Apache Spark 是 Apache Software Foundation 的商标。