Previsione batch con Gemini

Ottieni un'inferenza asincrona, a velocità effettiva elevata e conveniente per le tue esigenze di elaborazione dei dati su larga scala con le funzionalità di previsione batch di Gemini. Questa guida illustra il valore della previsione batch, il suo funzionamento, i limiti e le best practice per ottenere risultati ottimali.

Perché utilizzare la previsione batch?

In molti scenari reali, non è necessaria una risposta immediata da un modello linguistico. Potresti invece avere un ampio set di dati di prompt che devi elaborare in modo efficiente ed economico. È qui che le previsioni batch si distinguono.

I vantaggi principali includono:

  • Convenienza: l'elaborazione batch viene offerta a una tariffa scontata del 50% rispetto all'inferenza in tempo reale, il che la rende ideale per attività su larga scala e non urgenti.
  • Limiti di frequenza elevati: elabora centinaia di migliaia di richieste in un singolo batch con un limite di frequenza più elevato rispetto all'API Gemini in tempo reale.
  • Flusso di lavoro semplificato:anziché gestire una pipeline complessa di singole richieste in tempo reale, puoi inviare un singolo job batch e recuperare i risultati al termine dell'elaborazione. Il servizio gestirà la convalida del formato, parallelizzerà le richieste per l'elaborazione simultanea e riproverà automaticamente a ottenere un tasso di completamento elevato con un tempo di risposta di 24 ore.

La previsione batch è ottimizzata per attività di elaborazione su larga scala come:

  • Generazione di contenuti: genera descrizioni di prodotti, post sui social media o altri testi creativi in blocco.
  • Annotazione e classificazione dei dati: classifica le recensioni degli utenti, categorizza i documenti o esegui l'analisi del sentiment su un ampio corpus di testo.
  • Analisi offline: riassumi articoli, estrai informazioni chiave da report o traduci documenti su larga scala.

Modelli Gemini che supportano le previsioni batch

I seguenti modelli Gemini di base e ottimizzati supportano le previsioni batch:

Quote e limiti

Sebbene la previsione batch sia potente, è importante tenere presente le seguenti limitazioni.

  • Quota: non esistono limiti di quota predefiniti per il tuo utilizzo. Il servizio batch fornisce invece l'accesso a un ampio pool condiviso di risorse, allocate dinamicamente in base alla disponibilità delle risorse e alla domanda in tempo reale di tutti i clienti di quel modello. Quando più clienti sono attivi e la nostra capacità è satura, le richieste batch potrebbero essere messe in coda per capacità.
  • Tempo di attesa: quando il nostro servizio registra un traffico elevato, il tuo job batch viene messo in coda per capacità. Il job rimarrà in coda fino a 72 ore prima di scadere.
  • Limiti delle richieste: un singolo job batch può includere fino a 200.000 richieste. Se utilizzi Cloud Storage come input, è previsto anche un limite di dimensione dei file di 1 GB.
  • Tempo di elaborazione: i job batch vengono elaborati in modo asincrono e non sono progettati per applicazioni in tempo reale. La maggior parte dei job viene completata entro 24 ore dall'inizio dell'esecuzione (senza contare il tempo di attesa in coda). Dopo 24 ore, i lavori incompleti verranno annullati e ti verrà addebitato solo l'importo delle richieste completate.
  • Funzionalità non supportate: la previsione batch non supporta la memorizzazione nella cache contestuale, RAG o gli endpoint globali.

Best practice

Per ottenere il massimo dalla previsione batch con Gemini, ti consigliamo di adottare le seguenti best practice:

  • Combina i job:per massimizzare la velocità effettiva, combina i job più piccoli in un unico job di grandi dimensioni, entro i limiti del sistema. Ad esempio, l'invio di un job batch con 200.000 richieste offre un throughput migliore rispetto a 1000 job con 200 richieste ciascuno.
  • Monitora lo stato del job:puoi monitorare l'avanzamento del job utilizzando l'API, l'SDK o la UI. Per saperne di più, vedi Monitorare lo stato del job. Se un job non viene completato, controlla i messaggi di errore per diagnosticare e risolvere il problema.
  • Ottimizza per il costo:approfitta del risparmio sui costi offerto dall'elaborazione batch per le attività che non richiedono una risposta immediata.

Passaggi successivi