A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Ottieni un'inferenza asincrona, a velocità effettiva elevata e conveniente per le tue esigenze di elaborazione dei dati su larga scala con le funzionalità di previsione batch di Gemini.
Questa guida illustra il valore della previsione batch, il suo funzionamento, i limiti e le best practice per ottenere risultati ottimali.
Perché utilizzare la previsione batch?
In molti scenari reali, non è necessaria una risposta immediata da un modello linguistico. Potresti invece avere un ampio set di dati di prompt che devi elaborare in modo efficiente ed economico. È qui che le previsioni batch si distinguono.
I vantaggi principali includono:
Convenienza: l'elaborazione batch viene offerta a una tariffa scontata del 50% rispetto all'inferenza in tempo reale, il che la rende ideale per attività su larga scala e non urgenti.
Limiti di frequenza elevati: elabora centinaia di migliaia di richieste in un singolo batch con un limite di frequenza più elevato rispetto all'API Gemini in tempo reale.
Flusso di lavoro semplificato:anziché gestire una pipeline complessa di singole richieste in tempo reale, puoi inviare un singolo job batch e recuperare i risultati al termine dell'elaborazione. Il servizio gestirà la convalida del formato, parallelizzerà le richieste per l'elaborazione simultanea e riproverà automaticamente a ottenere un tasso di completamento elevato con un tempo di risposta di 24 ore.
La previsione batch è ottimizzata per attività di elaborazione su larga scala come:
Generazione di contenuti: genera descrizioni di prodotti, post sui social media o
altri testi creativi in blocco.
Annotazione e classificazione dei dati: classifica le recensioni degli utenti, categorizza i documenti o esegui l'analisi del sentiment su un ampio corpus di testo.
Analisi offline: riassumi articoli, estrai informazioni chiave da report o traduci documenti su larga scala.
Modelli Gemini che supportano le previsioni batch
I seguenti modelli Gemini di base e ottimizzati supportano le previsioni batch:
Sebbene la previsione batch sia potente, è importante tenere presente le seguenti
limitazioni.
Quota: non esistono limiti di quota predefiniti per il tuo utilizzo. Il servizio batch
fornisce invece l'accesso a un ampio pool condiviso di risorse, allocate
dinamicamente in base alla disponibilità delle risorse e alla domanda in tempo reale
di tutti i clienti di quel modello. Quando più clienti sono attivi e
la nostra capacità è satura, le richieste batch potrebbero essere messe in coda per capacità.
Tempo di attesa: quando il nostro servizio registra un traffico elevato, il tuo job batch
viene messo in coda per capacità. Il job rimarrà in coda fino a 72 ore prima di scadere.
Limiti delle richieste: un singolo job batch può includere fino a 200.000 richieste. Se
utilizzi Cloud Storage come input, è previsto anche un limite di dimensione dei file di 1 GB.
Tempo di elaborazione: i job batch vengono elaborati in modo asincrono e non sono progettati per applicazioni in tempo reale. La maggior parte dei job viene completata entro 24 ore dall'inizio dell'esecuzione (senza contare il tempo di attesa in coda). Dopo 24 ore, i lavori
incompleti verranno annullati e ti verrà addebitato solo l'importo delle richieste completate.
Per ottenere il massimo dalla previsione batch con Gemini, ti consigliamo di adottare le seguenti
best practice:
Combina i job:per massimizzare la velocità effettiva, combina i job più piccoli in un unico job di grandi dimensioni, entro i limiti del sistema. Ad esempio, l'invio di un job batch con 200.000
richieste offre un throughput migliore rispetto a 1000 job con 200 richieste ciascuno.
Monitora lo stato del job:puoi monitorare l'avanzamento del job utilizzando l'API, l'SDK o la UI.
Per saperne di più, vedi Monitorare lo stato del job. Se un job non viene completato, controlla i messaggi di errore per diagnosticare e risolvere il problema.
Ottimizza per il costo:approfitta del risparmio sui costi offerto dall'elaborazione batch per le attività che non richiedono una risposta immediata.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-02 UTC."],[],[],null,["# Batch prediction with Gemini\n\n| To see an example of using batch predictions,\n| run the \"Intro to Batch Predictions with the Gemini API\" notebook in one of the following\n| environments:\n|\n| [Open in Colab](https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open in Colab Enterprise](https://console.cloud.google.com/vertex-ai/colab/import/https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open\n| in Vertex AI Workbench](https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [View on GitHub](https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n\nGet asynchronous, high-throughput, and cost-effective inference for your\nlarge-scale data processing needs with Gemini's batch prediction capabilities.\nThis guide will walk you through the value of batch prediction, how it works,\nits limitations, and best practices for optimal results.\n\nWhy use batch prediction?\n-------------------------\n\nIn many real-world scenarios, you don't need an immediate response from a\nlanguage model. Instead, you might have a large dataset of prompts that you need\nto process efficiently and affordably. This is where batch prediction shines.\n\n**Key benefits include:**\n\n- **Cost-Effectiveness:** Batch processing is offered at a 50% discounted rate compared to real-time inference, making it ideal for large-scale, non-urgent tasks.\n- **High rate limits:** Process hundreds of thousands of requests in a single batch with a higher rate limit compared to the real time Gemini API.\n- **Simplified Workflow:** Instead of managing a complex pipeline of individual real-time requests, you can submit a single batch job and retrieve the results once the processing is complete. The service will handle format validation, parallelize requests for concurrent processing, and automatically retry to strive for a high completion rate with **24 hours** turnaround time.\n\nBatch prediction is optimized for **large-scale processing tasks** like:\n\n- **Content Generation:** Generate product descriptions, social media posts, or other creative text in bulk.\n- **Data Annotation and Classification:** Classify user reviews, categorize documents, or perform sentiment analysis on a large corpus of text.\n- **Offline Analysis:** Summarize articles, extract key information from reports, or translate documents at scale.\n\nGemini models that support batch predictions\n--------------------------------------------\n\nThe following base and tuned Gemini models support batch predictions:\n\n- [Gemini 2.5\n Pro](/vertex-ai/generative-ai/docs/models/gemini/2-5-pro)\n- [Gemini 2.5\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash)\n- [Gemini 2.5\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-lite)\n- [Gemini 2.0\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)\n- [Gemini 2.0\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash-lite)\n\nQuotas and limits\n-----------------\n\nWhile batch prediction is powerful, it's important to be aware of the following\nlimitations.\n\n- **Quota**: There are no predefined quota limits on your usage. Instead, batch service provides access to a large, shared pool of resources, dynamically allocated based on availability of resources and real-time demand across all customers of that model. When more customers are active and saturated our capacity, your batch requests may be queued for capacity.\n- **Queue Time**: When our service experiences high traffic, your batch job will queue for capacity. The job will be in queue for up to 72 hours before it expires.\n- **Request Limits**: A single batch job may include up to 200,000 requests. If you are using Cloud Storage as input, there is also a file size limit of 1GB.\n- **Processing Time**: Batch jobs are processed asynchronously and are not designed for real-time applications. Most jobs complete within 24 hours after it starts running (not counting the queue time). After 24 hours, incomplete jobs will be cancelled, and you will only be charged for completed requests.\n- **Unsupported features** : Batch prediction does not support [Context Caching](/vertex-ai/generative-ai/docs/context-cache/context-cache-overview), [RAG](/vertex-ai/generative-ai/docs/rag-engine/rag-overview), or [Global endpoints](/vertex-ai/generative-ai/docs/learn/locations#global-endpoint).\n\n| **Note:** Batch prediction is not a [Covered Service](/vertex-ai/sla) and is excluded from the Service Level Objective (SLO) of any Service Level Agreement (SLA).\n\nBest practices\n--------------\n\nTo get the most out of batch prediction with Gemini, we recommend the following\nbest practices:\n\n- **Combine jobs:** To maximize throughput, combine smaller jobs into one large job, within system limits. For example, submitting one batch job with 200,000 requests will give you better throughput than 1000 jobs with 200 requests each.\n- **Monitor Job Status:** You can monitor job progress using API, SDK, or UI. For more information, see [monitor the job status](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage#monitor). If a job fails, check the error messages to diagnose and troubleshoot the issue.\n- **Optimize for Cost:** Take advantage of the cost savings offered by batch processing for any tasks that don't require an immediate response.\n\nWhat's next\n-----------\n\n- [Create a batch job with Cloud Storage](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage)\n- [Create a batch job with BigQuery](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-bigquery)\n- Learn how to tune a Gemini model in [Overview of model tuning for Gemini](/vertex-ai/generative-ai/docs/models/tune-gemini-overview)\n- Learn more about the [Batch prediction API](/vertex-ai/generative-ai/docs/model-reference/batch-prediction-api)."]]