Panoramica di Dataproc

Dataproc รจ un servizio Spark e Hadoop gestito che ti consente di sfruttare gli strumenti per i dati open source per elaborazione batch, esecuzione di query, inserimento di flussi e machine learning. L'automazione di Dataproc ti aiuta a creare i cluster rapidamente, a gestirli con facilitร  e a risparmiare denaro disattivandoli quando non ti servono. Risparmiando tempo e denaro sull'amministrazione, puoi concentrarti sui tuoi progetti e sui tuoi dati.

Vantaggi di Dataproc

Rispetto ai tradizionali prodotti on-premise e ai servizi cloud concorrenti, Dataproc offre una serie di vantaggi unici per i cluster da tre a centinaia di nodi:

  • Costo ridotto: il prezzo di Dataproc รจ di solo 1 centesimo per CPU virtuale nel cluster all'ora, oltre alle altre risorse della piattaforma Cloud che utilizzi. Oltre a questo prezzo ridotto, i cluster Dataproc possono includere istanze prerilasciabili con prezzi di calcolo inferiori, riducendo ulteriormente i costi. Invece di arrotondare l'utilizzo per eccesso all'ora piรน vicina, Dataproc ti addebita solo ciรฒ che utilizzi effettivamente con la fatturazione secondo per secondo e un minimo periodo di fatturazione di un minuto.
  • Molto veloce: senza utilizzare Dataproc, la creazione di cluster Spark e Hadoop on-premise o tramite provider IaaS puรฒ richiedere dai cinque ai 30 minuti. In confronto, i cluster Dataproc sono rapidi da avviare, scalare e arrestare, poichรฉ ciascuna di queste operazioni impiega 90 secondi o meno in media. Ciรฒ significa che potrai trascorrere meno tempo ad attendere i cluster e piรน tempo lavorando direttamente sui dati.
  • Integrato: Dataproc รจ integrato con altri servizi della piattaforma Google Cloud, come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, perciรฒ non hai solo un cluster Spark o Hadoop, ma una piattaforma di dati completa. Ad esempio, puoi utilizzare Dataproc per eseguire facilmente l'ETL di terabyte di dati di log non elaborati direttamente in BigQuery per la generazione di report aziendali.
  • Gestito: utilizza i cluster Spark e Hadoop senza l'assistenza di un amministratore o di software speciale. Puoi facilmente interagire con cluster e job Spark o Hadoop tramite la console Google Cloud , Cloud SDK o l'API REST Dataproc. Quando hai finito con un cluster, puoi semplicemente disattivarlo, in modo da non spendere soldi per un cluster inattivo. Non dovrai preoccuparti di perdere dati, perchรฉ Dataproc รจ integrato con Cloud Storage, BigQuery e Cloud Bigtable.
  • Semplice e familiare: non รจ necessario imparare a usare nuovi strumenti o API per utilizzare Dataproc, quindi รจ facile spostare i progetti esistenti in Dataproc senza doverli ridefinire. Spark, Hadoop, Pig e Hive vengono aggiornati di frequente, perciรฒ puoi essere piรน produttivo piรน rapidamente.

Che cosa รจ incluso in Dataproc

Per un elenco delle versioni dei connettori open source (Hadoop, Spark, Hive e Pig) e Google Cloud supportate da Dataproc, consulta l'elenco delle versioni di Dataproc.

Inizia a utilizzare Dataproc

Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide su Dataproc. Puoi accedere a Dataproc nei seguenti modi: