Google Cloud 上的 Apache Spark

在 Google Cloud 上充分发挥 Spark 的潜力。选择无服务器的便捷性或集群控制,借助高速处理、AI 辅助和无缝的开放式湖仓一体连接,提升数据处理速度。

优势

提高开发者的工作效率并更快地获取数据洞见

适合所有数据用户的无缝 Spark

使用 BigQueryVertex AI 和 IDE,通过无服务器或托管式集群轻松运行 Spark。消除自定义集成,简化 ETL 到机器学习工作流,并使用 Gemini 提高代码和操作的效率。


通过无服务器 Spark 简化运维

Google Cloud Serverless for Apache Spark 提供即时自动扩缩和近乎零配置。借助 Lightning Engine(预览版),将查询性能提升 3.6 倍*。Dataplex Universal Catalog 可统一元数据,简化了操作。

以您首选的方式运行 Spark

并没有一种通用的选项。Google Cloud 为您提供了灵活的选择,您可以为 Spark 工作负载选择无服务器、托管式集群和计算集群。

主要特性

在 Google Cloud 上运行 Spark 的强大方法

Google Cloud Serverless for Apache Spark

使用 Google Cloud Serverless for Apache Spark 通过 Lightning Engine* 和 Gemini 提高工作效率和绩效。这种体验是一种深度集成的环境,可直接从 BigQuery 运行 Apache Spark 和 SQL 工作负载。它使用 BigLake metastore 提供统一的安全性和运行时元数据,并通过 Dataplex Universal Catalog 进行治理。通过集成的 CI/CD、笔记本中的 Gemini 最大限度地提高工作效率,并消除 Apache Spark 集群管理。

* 这些查询源自 TPC-DS 标准TPC-H 标准,因此无法与已发布的 TPC-DS 标准TPC-H 标准结果进行比较,因为这些运行不符合 TPC-DS 标准TPC-H 标准规范的所有要求。

使用 Dataproc 的托管式 Spark、Hadoop 和 OSS 集群

Dataproc 是一项具有高度可扩缩的全托管式服务,用于部署和运营专用 Spark、Hadoop 以及 30 多个开源工具的庞大生态系统。它与更广泛的 Google Cloud 产品和服务集成,包括适用于 Google Compute Engine 上的 Dataproc(高级层级)的 Lightning Engine,非常适合用于数据湖现代化改造、高效的 ETL 流水线和安全的大规模数据科学计划,其中集群控制至关重要。

使用 Google Cloud 上的 Apache Spark 进行数据科学

无论您是喜欢 Google Cloud Serverless for Apache Spark 的零运维简便性,还是更倾向于托管式 Dataproc 集群的控制,都可以加快整个机器学习生命周期。受益于:

  • 无缝集成:轻松连接 BigQuery 进行数据访问,连接 Vertex AI 进行 MLOps,构建端到端数据科学流水线。
  • 开发者工作效率:利用 GeminiBigQuery StudioVertex AI Workbench 等笔记本环境中提供编码数据分析和协助。
  • AI/机器学习就绪性:利用无服务器 Spark 和 Dataproc 集群提供的预封装机器学习库和 GPU 加速功能,处理要求苛刻的训练和推理任务。
  • 更快迭代:无论您选择哪种方法,都应专注于开发和实验。

通过 Vertex AI 运行 Spark

使用 Vertex AI 无缝开发和运行数据科学用途的 Spark。使用 Vertex AI Workbench 的 Spark 进行交互式开发,具有内置安全性和 Gemini 助手功能。将 Spark 处理集成到 Vertex AI Pipelines 中,实现强大的 MLOps。

为您的湖仓一体架构提供开源表格格式支持

Google Cloud 的 Spark 产品与 Apache Iceberg、Delta Lake 和 Hudi 等开源格式具有强大的兼容性。利用 BigLake metastoreDataproc Metastore 跨不同格式统一管理元数据,实现开放式湖仓一体架构,让您可以使用自己选择的 Spark 引擎处理数据。


Apache Spark 是 Apache Software Foundation 的商标。

更进一步

告诉我们您需要解决什么问题。Google Cloud 专家会帮助您找到最合适的解决方案。

Google Cloud