Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Cuando se crea un clúster de Dataproc, puedes poner el clúster en el modo de alta disponibilidad (AD) de Hadoop si especificas el número de instancias principales en el clúster. La cantidad de instancias principales solo se puede especificar en el momento de la creación del clúster.
Actualmente, Dataproc admite dos configuraciones principales:
1 principal (predeterminada, no es AD)
3 principales (Hadoop AD)
Comparación del modo de alta disponibilidad predeterminado y de Hadoop
Error de Compute Engine: en el caso poco frecuente de que ocurra un error inesperado en Compute Engine, las instancias de Dataproc experimentarán un reinicio de la máquina. La configuración principal única predeterminada de Dataproc está diseñada para recuperar y continuar el procesamiento de trabajos nuevos en esos casos, pero los trabajos en tránsito fallarán de manera inevitable y deberán reintentarse, y no será posible acceder a HDFS hasta que el NameNode único se recupere completamente en el reinicio. En el modo de AD, se configuran Alta disponibilidad de HDFS y Alta disponibilidad de YARN para permitir operaciones YARN y HDFS ininterrumpidas a pesar de cualquier falla o reinicio del nodo único.
Cancelación del controlador de trabajos: El programa principal o del controlador de cualquier trabajo que ejecutes sigue representando un punto único de fallo potencial si la precisión de tu trabajo depende de que el programa del controlador se ejecute con éxito. Los trabajos enviados a través de la API de trabajos de Dataproc no se consideran "alta disponibilidad" y aún se finalizarán si falla el nodo principal que ejecuta los programas del controlador del trabajo correspondiente. Para que los trabajos individuales sean resistentes a las fallas del nodo único mediante el uso del clúster de Cloud Dataproc de alta disponibilidad, el trabajo debe 1) ejecutarse sin un programa del controlador síncrono o 2) ejecutar el programa del controlador dentro de un contenedor YARN y escribirse para controlar los reinicios del programa del controlador. Consulta la documentación sobre cómo iniciar Spark en YARN para ver un ejemplo de la forma en la que los programas del controlador reiniciables se pueden ejecutar dentro de contenedores YARN para tolerancia a errores.
Falla zonal: Como es el caso de todos los clústeres de Dataproc, todos los nodos de un clúster de alta disponibilidad residen en la misma zona. Si ocurre una falla que afecte a todos los nodos de una zona, la falla no se mitigará.
Nombres de instancias
La instancia principal predeterminada se llama cluster-name-m; las instancias principales de alta disponibilidad se llaman cluster-name-m-0, cluster-name-m-1 y cluster-name-m-2.
Apache ZooKeeper
En un clúster de Dataproc de alta disponibilidad, el componente Zookeeper se instala automáticamente en los nodos principales del clúster. Todas las instancias principales participan en un clúster de ZooKeeper, que habilita la conmutación por error automática para otros servicios de Hadoop.
HDFS
En un clúster de Dataproc estándar:
cluster-name-m ejecuta:
NameNode
NameNode secundario
En un clúster de Dataproc de alta disponibilidad:
cluster-name-m-0 y cluster-name-m-1 ejecutan:
NameNode
ZKFailoverController
Todas las instancias principales que se ejecutan en JournalNode
No hay un NameNode secundario
Consulta la documentación sobre Alta disponibilidad de HDFS para obtener detalles adicionales sobre los componentes.
YARN
En un clúster estándar de Dataproc, cluster-name-m ejecuta ResourceManager.
En un clúster de Dataproc de alta disponibilidad, todas las instancias principales ejecutan ResourceManager.
Consulta la documentación sobre alta disponibilidad de YARN para obtener detalles adicionales sobre los componentes.
Para crear un clúster de alta disponibilidad, selecciona Alta disponibilidad (3 instancias principales, N trabajadores) en la sección Tipo de clúster del panel Configurar clúster en la página Crea un clúster.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eDataproc clusters can be configured in Hadoop High Availability (HA) mode by setting the number of master instances to 3 during cluster creation, as opposed to the default of 1.\u003c/p\u003e\n"],["\u003cp\u003eHA mode provides uninterrupted YARN and HDFS operations despite single-node failures or reboots, unlike the default mode where in-flight jobs may fail during a Compute Engine failure, necessitating job retries.\u003c/p\u003e\n"],["\u003cp\u003eJobs submitted through the Dataproc Jobs API are not considered "high availability" and will be terminated if the master node running the job driver fails; if a job requires high availability, it must be launched without a driver program, or the driver program must be launched within a YARN container.\u003c/p\u003e\n"],["\u003cp\u003eIn an HA cluster, all master nodes participate in a ZooKeeper cluster to enable automatic failover, and each node runs ResourceManager, while in a default cluster, the single master runs the NameNode, Secondary NameNode, and ResourceManager.\u003c/p\u003e\n"],["\u003cp\u003eCreating an HA cluster involves using either the gcloud command with \u003ccode\u003e--num-masters=3\u003c/code\u003e, the REST API by setting \u003ccode\u003emasterConfig.numInstances\u003c/code\u003e to \u003ccode\u003e3\u003c/code\u003e, or by selecting "High Availability (3 masters, N workers)" in the Dataproc console.\u003c/p\u003e\n"]]],[],null,["When creating a Dataproc cluster, you can put the cluster into\nHadoop High Availability (HA) mode by\nspecifying the number of master instances in the\ncluster. The number of masters can only be specified at cluster creation time.\n\nCurrently, Dataproc supports two master configurations:\n\n- 1 master (default, non HA)\n- 3 masters (Hadoop HA)\n\nComparison of default and Hadoop High Availability mode Due to the complexity and higher cost of HA mode, use the default mode unless your use case requires HA mode.\n\n- **Compute Engine failure:** In the rare case of an\n unexpected Compute Engine failure, Dataproc\n instances will experience a machine reboot. The default single-master\n configuration for Dataproc is designed to recover and continue processing\n new work in such cases, but in-flight jobs will necessarily fail and need to be\n retried, and HDFS will be inaccessible until the single NameNode fully recovers\n on reboot. In **HA mode** , [HDFS High Availability](https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html) and\n [YARN High Availability](https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html)\n are configured to allow uninterrupted YARN and HDFS operations despite any\n single-node failures/reboots.\n\n- **Job driver termination:** The driver/main program of any jobs you run still represents a\n potential single point of failure if the correctness of your job depends on the\n driver program running successfully. Jobs submitted through the Dataproc\n Jobs API are not considered \"high availability,\" and will still be terminated on\n failure of the master node that runs the corresponding job driver programs. For\n individual jobs to be resilient against single-node failures using a HA Cloud\n Dataproc cluster, the job must either 1) run without a synchronous driver\n program or 2) it must run the driver program itself inside a YARN container and\n be written to handle driver-program restarts. See\n [Launching Spark on YARN](http://spark.apache.org/docs/latest/running-on-yarn.html#launching-spark-on-yarn) for an example\n of how restartable driver programs can run inside YARN containers for fault\n tolerance.\n\n- **Zonal failure:** As is the case with all Dataproc clusters, all nodes in a High\n Availability cluster reside in the same zone. If there is a failure that\n impacts all nodes in a zone, the failure will not be mitigated.\n\nInstance Names\n\nThe default master is named `cluster-name-m`; HA masters are named\n`cluster-name-m-0`, `cluster-name-m-1`, `cluster-name-m-2`.\n\nApache ZooKeeper\n\nIn an HA Dataproc cluster, the\n[Zookeeper component](/dataproc/docs/concepts/components/zookeeper)\nis automatically installed on cluster master nodes. All masters\nparticipate in a ZooKeeper cluster, which enables automatic failover for\nother Hadoop services.\n\nHDFS\n\nIn a standard Dataproc cluster:\n\n- `cluster-name-m` runs:\n - NameNode\n - Secondary NameNode\n\nIn a High Availability Dataproc cluster:\n\n- `cluster-name-m-0` and `cluster-name-m-1` run:\n - NameNode\n - ZKFailoverController\n- All masters run JournalNode\n- There is no Secondary NameNode\n\nPlease see the [HDFS High Availability](https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html)\ndocumentation for additional details on components.\n\nYARN\n\nIn a standard Dataproc cluster, `cluster-name-m` runs ResourceManager.\n\nIn a High Availability Dataproc cluster, all masters run ResourceManager.\n\nPlease see the [YARN High Availability](https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html)\ndocumentation for additional details on components.\n\nCreate a High Availability cluster \n\ngcloud command\n\n\n| **gcloud CLI setup:** You must [setup and configure](/sdk/docs/quickstarts) the gcloud CLI to use the Google Cloud CLI.\nTo create an HA cluster with [gcloud dataproc clusters create](/sdk/gcloud/reference/dataproc/clusters/create), run the following command: \n\n```\ngcloud dataproc clusters create cluster-name \\\n --region=region \\\n --num-masters=3 \\\n ... other args\n```\n\n\u003cbr /\u003e\n\nREST API\n\n\nTo create an HA cluster, use the\n[clusters.create](/dataproc/docs/reference/rest/v1/projects.regions.clusters/create)\nAPI, setting [masterConfig.numInstances](/dataproc/docs/reference/rest/v1/ClusterConfig#InstanceGroupConfig)\nto `3`.\n| An easy way to construct the JSON body of an HA cluster create request is to create the request from the Dataproc [Create a cluster](https://console.cloud.google.com/dataproc/clustersAdd) page of the Google Cloud console. Select High Availability (3 masters, N workers) in the Cluster type section of the Set up cluster panel, then click the Equivalent REST button at the bottom of the left panel. Here's a snippet of a sample JSON output produced by the console for an HA cluster create request: \n|\n| ```\n| ...\n| masterConfig\": {\n| \"numInstances\": 3,\n| \"machineTypeUri\": \"n1-standard-4\",\n| \"diskConfig\": {\n| \"bootDiskSizeGb\": 500,\n| \"numLocalSsds\": 0\n| }\n| }\n| ...\n| ```\n\n\u003cbr /\u003e\n\nConsole\n\n\nTo create an HA cluster, select High Availability (3 masters, N workers) in\nthe Cluster type section of the Set up cluster panel on the\nDataproc\n[Create a cluster](https://console.cloud.google.com/dataproc/clustersAdd)\npage."]]