Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Dataproc รจ un servizio Spark e Hadoop gestito che ti consente di sfruttare gli strumenti per i dati open source per elaborazione batch, esecuzione di query, inserimento di flussi e machine learning.
L'automazione di Dataproc ti aiuta a creare i cluster rapidamente, a gestirli con facilitร e a risparmiare
denaro disattivandoli quando non ti servono. Risparmiando tempo e denaro sull'amministrazione, puoi concentrarti sui tuoi progetti e sui tuoi dati.
Vantaggi di Dataproc
Rispetto ai tradizionali prodotti on-premise e ai servizi cloud concorrenti, Dataproc offre una serie di vantaggi unici per i cluster da tre a centinaia di nodi:
Costo ridotto: il
prezzo di Dataproc รจ di solo 1 centesimo per CPU virtuale nel cluster all'ora, oltre alle altre risorse della piattaforma Cloud che utilizzi. Oltre a questo
prezzo ridotto, i cluster Dataproc possono includere
istanze prerilasciabili con prezzi di calcolo inferiori, riducendo ulteriormente i costi. Invece di arrotondare
l'utilizzo per eccesso all'ora piรน vicina, Dataproc ti addebita solo
ciรฒ che utilizzi effettivamente con la fatturazione secondo per secondo e un minimo
periodo di fatturazione di un minuto.
Molto veloce: senza utilizzare Dataproc, la creazione di cluster Spark e Hadoop on-premise o tramite provider IaaS puรฒ richiedere dai cinque ai 30 minuti. In confronto, i cluster Dataproc sono
rapidi da avviare, scalare e arrestare, poichรฉ ciascuna di queste operazioni impiega
90 secondi o meno in media. Ciรฒ significa che potrai trascorrere meno tempo ad attendere i cluster e piรน tempo lavorando direttamente sui dati.
Integrato: Dataproc รจ integrato con altri servizi della piattaforma Google Cloud, come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, perciรฒ non hai solo un cluster Spark o Hadoop, ma una piattaforma di dati completa. Ad esempio, puoi utilizzare Dataproc per eseguire facilmente l'ETL di terabyte di dati di log non elaborati direttamente in BigQuery per la generazione di report aziendali.
Gestito: utilizza i cluster Spark e Hadoop senza l'assistenza di un amministratore o di software speciale. Puoi facilmente
interagire con cluster e job Spark o Hadoop tramite la
console Google Cloud , Cloud SDK o l'API REST Dataproc. Quando hai finito con un cluster, puoi semplicemente disattivarlo, in modo da non spendere soldi per un cluster inattivo. Non dovrai preoccuparti di
perdere dati, perchรฉ Dataproc รจ integrato con
Cloud Storage, BigQuery e
Cloud Bigtable.
Semplice e familiare: non รจ necessario imparare a usare nuovi strumenti o API per utilizzare Dataproc, quindi รจ facile spostare i progetti esistenti in Dataproc senza doverli ridefinire. Spark, Hadoop, Pig e Hive
vengono aggiornati di frequente, perciรฒ puoi essere piรน produttivo piรน rapidamente.
Che cosa รจ incluso in Dataproc
Per un elenco delle versioni dei connettori open source (Hadoop, Spark, Hive e Pig) e Google Cloud
supportate da Dataproc, consulta l'elenco delle versioni di Dataproc.
Inizia a utilizzare Dataproc
Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide su Dataproc. Puoi accedere a Dataproc nei seguenti modi:
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema รจ stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-02 UTC."],[[["\u003cp\u003eDataproc is a managed service for Spark and Hadoop that simplifies batch processing, querying, streaming, and machine learning with open-source tools.\u003c/p\u003e\n"],["\u003cp\u003eDataproc offers cost savings through low per-vCPU pricing, preemptible instances, and second-by-second billing, only charging for actual usage.\u003c/p\u003e\n"],["\u003cp\u003eClusters in Dataproc are created, scaled, and shut down quickly, often in 90 seconds or less, minimizing wait times and increasing efficiency.\u003c/p\u003e\n"],["\u003cp\u003eDataproc seamlessly integrates with other Google Cloud Platform services, forming a complete data platform that enables functionalities like ETL directly into BigQuery.\u003c/p\u003e\n"],["\u003cp\u003eDataproc provides a managed environment, eliminating the need for administrators or special software while offering easy interaction with clusters and jobs through the Google Cloud console, Cloud SDK, or REST API.\u003c/p\u003e\n"]]],[],null,["Dataproc is a managed Spark and Hadoop service that lets you take advantage of open\nsource data tools for batch processing, querying, streaming, and machine learning.\nDataproc automation helps you create clusters quickly, manage them easily, and save\nmoney by turning clusters off when you don't need them. With less time and money spent on\nadministration, you can focus on your jobs and your data. \n\nAdvantages of Dataproc\n\nWhen compared to traditional, on-premises products and competing cloud\nservices, Dataproc has a number of unique advantages for clusters of\nthree to hundreds of nodes:\n\n- **Low cost** --- Dataproc is [priced](/dataproc/docs/resources/pricing) at only 1 cent per virtual CPU in your cluster per hour, on top of the other Cloud Platform resources you use. In addition to this low price, Dataproc clusters can include [preemptible instances](/preemptible-vms) that have lower compute prices, reducing your costs even further. Instead of rounding your usage up to the nearest hour, Dataproc charges you only for what you really use with second-by-second billing and a low, one-minute-minimum billing period.\n- **Super fast** --- Without using Dataproc, it can take from five to 30 minutes to create Spark and Hadoop clusters on-premises or through IaaS providers. By comparison, Dataproc clusters are quick to start, scale, and shutdown, with each of these operations taking 90 seconds or less, on average. This means you can spend less time waiting for clusters and more hands-on time working with your data.\n- **Integrated** --- Dataproc has built-in integration with other Google Cloud Platform services, such as [BigQuery](/bigquery), [Cloud Storage](/storage), [Cloud Bigtable](/bigtable), [Cloud Logging](/logging), and [Cloud Monitoring](/monitoring), so you have more than just a Spark or Hadoop cluster---you have a complete data platform. For example, you can use Dataproc to effortlessly ETL terabytes of raw log data directly into BigQuery for business reporting.\n- **Managed** --- Use Spark and Hadoop clusters without the assistance of an administrator or special software. You can easily interact with clusters and Spark or Hadoop jobs through the Google Cloud console, the Cloud SDK, or the Dataproc REST API. When you're done with a cluster, you can simply turn it off, so you don't spend money on an idle cluster. You won't need to worry about losing data, because Dataproc is integrated with [Cloud Storage](/storage), [BigQuery](/bigquery), and [Cloud Bigtable](/bigtable).\n- **Simple and familiar** --- You don't need to learn new tools or APIs to use Dataproc, making it easy to move existing projects into Dataproc without redevelopment. Spark, Hadoop, Pig, and Hive are frequently updated, so you can be productive faster.\n\nWhat is included in Dataproc\n\nFor a list of the open source (Hadoop, Spark, Hive, and Pig) and Google Cloud\nconnector versions supported by\nDataproc, see the\n[Dataproc version list](/dataproc/docs/concepts/dataproc-versions).\n\nGetting Started with Dataproc\n\nTo quickly get started with Dataproc, see the Dataproc\nquickstarts. You can access Dataproc in the following ways:\n\n- Through the [REST API](/dataproc/docs/quickstarts/create-cluster-template)\n- Using the [Cloud SDK](/dataproc/docs/quickstarts/create-cluster-gcloud)\n- Using the [Dataproc UI](/dataproc/docs/quickstarts/create-cluster-console)\n- Through the [Cloud Client Libraries](/dataproc/docs/quickstarts/create-cluster-client-libraries)"]]