使用 Google Cloud 控制台创建 Dataproc 集群

本页面介绍了如何使用 Google Cloud 控制台创建 Dataproc 集群，在该集群中运行基本的 Apache Spark 作业，然后修改集群中的工作器数量。

如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导，请点击操作演示：

准备工作

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Enable the API

创建集群

在 Google Cloud 控制台中，前往 Dataproc 集群页面。

转到集群
点击创建集群。
在创建 Dataproc 集群对话框中，点击在 Compute Engine 上创建集群行中的创建。
在集群名称字段中，输入 example-cluster。
在区域和可用区列表中，选择区域和可用区。

选择一个区域（例如 us-east1 或 europe-west1），以隔离该区域中 Dataproc 使用的资源，如虚拟机实例、Cloud Storage 以及元数据存储位置。如需了解详情，请参阅可用区域和可用区和区域端点。
对于所有其他选项，请使用默认设置。
如需创建集群，请点击创建。

您的新集群将显示在集群页面上的列表中。在集群准备好投入使用之前，状态为配置，然后状态会更改为运行。配置集群可能需要几分钟的时间。

提交 Spark 作业

提交估算 Pi 值的 Spark 作业：

在 Dataproc 导航菜单中，点击作业。
在作业页面上，点击 提交作业，然后执行以下操作：
1. 在作业 ID 字段中，使用默认设置，或提供您的 Google Cloud 项目独有的 ID。
2. 在集群下拉菜单中，选择 example-cluster。
3. 对于作业类型，请选择 Spark。
4. 在主类或 Jar 字段中，输入 org.apache.spark.examples.SparkPi。
5. 在 Jar 文件字段中，输入 file:///usr/lib/spark/examples/jars/spark-examples.jar。
6. 在参数字段中，输入 1000 以设置任务数量。
  
  注意：Spark 作业使用 Monte Carlo 方法估算 Pi。它在坐标平面上生成 x,y 点，该坐标平面可为由单位正方形包围的圆建模。输入参数 (1000) 决定要生成的 x,y 对的数量；生成的数量越多，估算的准确性就越高。此估算使用 Dataproc 工作器节点执行并行计算。如需了解详情，请参阅使用 Monte Carlo 方法估算 Pi 以及 GitHub 上的 JavaSparkPi.java。
7. 点击提交。
  
  您的作业将显示在作业详情页面上。作业状态为正在运行或正在启动，然后在提交后更改为成功。
  
  为避免在输出中滚动，请点击换行：关闭。输出内容如下所示：
```
Pi is roughly 3.1416759514167594
```
  如需查看作业详情，请点击配置标签页。

更新集群

通过更改工作器实例的数量来更新集群：

在 Dataproc 导航菜单中，点击集群。
在集群列表中，点击 example-cluster。
在集群详情页面上，点击配置标签页

此时将显示您的集群设置。
点击修改。
在工作器节点字段中，输入 5。
点击保存。

您的集群现在已更新。要将工作器节点的数量减少为原始值，请按照相同的过程操作。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用，请按照以下步骤操作。

如需删除集群，请前往 example-cluster 的集群详情页面，点击删除。
点击删除，确认删除集群。

后续步骤

使用其他工具尝试本快速入门：
- 使用 API Explorer。
- 使用 Google Cloud CLI。
了解如何在创建项目时创建强大的防火墙规则。
了解如何编写和运行 Spark Scala 作业。