Eseguire la migrazione agli ultimi modelli Gemini

Questa guida mostra come eseguire la migrazione all'ultima versione di Gemini. Questa guida presuppone che la tua applicazione utilizzi già una versione precedente di Gemini. Per informazioni su come iniziare a utilizzare Gemini in Vertex AI, consulta la sezione API Gemini in Vertex AI nella guida rapida di Vertex AI.

Questa guida non illustra come eseguire la migrazione dell'applicazione dall'SDK Vertex AI alla versione attuale dell'SDK Google Gen AI. Per informazioni su come eseguire la migrazione dall'SDK Vertex AI all'SDK Gen AI, consulta la nostra guida alla migrazione dell'SDK Vertex AI.

Quali modifiche devo aspettarmi?

L'upgrade della maggior parte delle applicazioni di AI generativa esistenti all'ultima versione di Gemini non richiede modifiche significative al codice o ai prompt. Tuttavia, alcune applicazioni richiedono modifiche rapide e queste modifiche sono difficili da prevedere senza eseguire prima un prompt nell'ultima versione. Prima della migrazione completa, è consigliabile eseguire test approfonditi utilizzando l'ultima versione. Consulta la nostra guida alla strategia per i prompt per informazioni su come creare prompt efficaci. Utilizza il nostro elenco di controllo per la salute dei prompt per diagnosticare e risolvere i problemi relativi ai prompt.

Modifiche significative al codice sono necessarie solo per determinate modifiche che causano interruzioni o per utilizzare le nuove funzionalità di Gemini.

A quale modello Gemini devo eseguire la migrazione?

Il modello Gemini a cui devi eseguire la migrazione dipende dalle priorità della tua applicazione e dei tuoi casi d'uso. La seguente tabella mette a confronto alcune funzionalità tra i modelli Gemini 1.5 ritirati e i modelli Gemini più recenti:

Funzionalità 1.5 Pro 1.5 Flash 2.0 Flash 2.0 Flash-Lite 2.5 Pro 2.5 Flash 2.5 Flash-Lite
Fase di avvio Ritirato Ritirato Disponibilità generale Disponibilità generale Disponibilità generale Disponibilità generale Disponibilità generale
Modalità di input
Testo, Codice, Immagini, Audio, Video
Testo, Codice, Immagini, Audio, Video
Testo, Codice, Immagini, Audio, Video
Testo, Codice, Immagini, Audio, Video
Testo, Codice, Immagini, Audio, Video
Testo, Codice, Immagini, Audio, Video
Testo, Codice, Immagini, Audio, Video
Modalità di output
Testo
Testo
Testo
Testo
Testo
Testo
Testo
Finestra contestuale, limite totale di token 2.097.152 1.048.576 1.048.576 1.048.576 1.048.576 1.048.576 1.048.576
Lunghezza del contesto di output 8192 (valore predefinito) 8192 (valore predefinito) 8192 (valore predefinito) 8192 (valore predefinito) 65.535 (valore predefinito) 65.535 (valore predefinito) 65.536 (valore predefinito)
Grounding con la Ricerca Google
Chiamata di funzione
Esecuzione del codice
Memorizzazione nella cache del contesto
Previsione batch
API Live*
Perfezionamento
Latenza
SDK consigliato SDK Vertex AI SDK Vertex AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI
Unità di prezzo Basato su caratteri Basato su caratteri Token Token Token Token Token
Data di ritiro 24 settembre 2025 24 settembre 2025 5 febbraio 2026 25 febbraio 2026 17 giugno 2026 17 giugno 2026 22 luglio 2026

* L'API Live è disponibile solo come offerta di anteprima nell'ambito di gemini-live-2.5-flash e gemini-live-2.5-flash-preview-native-audio.

Prima di iniziare la migrazione

Per una migrazione senza problemi, ti consigliamo di risolvere i seguenti problemi prima di iniziare la procedura di migrazione:

InfoSec, governance e approvazioni normative

Richiedi in modo proattivo le approvazioni necessarie ai tuoi stakeholder di sicurezza delle informazioni (InfoSec), gestione dei rischi e conformità. Assicurati di coprire i vincoli di rischio e conformità specifici del dominio, soprattutto in settori fortemente regolamentati, come la sanità e i servizi finanziari.

Disponibilità della posizione

I modelli di Google e dei partner e le funzionalità di AI generativa su Vertex AI sono esposti come endpoint regionali specifici e un endpoint globale. Gli endpoint globali coprono il mondo intero e offrono disponibilità e affidabilità maggiori rispetto alle singole regioni.

La disponibilità di località specifiche per gli endpoint regionali varia in base al modello. Per informazioni sulla disponibilità delle località per modello, consulta la nostra guida alle località.

Differenze di prezzo basate sulla modalità e sulla tokenizzazione

I costi dei prezzi variano in base al modello Gemini. La nostra pagina dei prezzi elenca i costi per tutte le modalità (testo, codice, immagini, voce e così via) per modello.

Acquistare o modificare gli ordini di throughput riservato

Se necessario, acquista un throughput riservato aggiuntivo o modifica gli ordini di throughput riservato esistenti.

Ottimizzazione supervisionata

Gli ultimi modelli Gemini offrono una qualità dell'output migliorata, il che potrebbe significare che la tua applicazione non richiede più l'utilizzo di un modello ottimizzato. Se la tua applicazione utilizza l'ottimizzazione supervisionata con un modello Gemini precedente, testa prima l'applicazione utilizzando l'ultimo modello senza ottimizzazione e valuta i risultati.

Se decidi di utilizzare il fine-tuning supervisionato, non potrai eseguire la migrazione del modello ottimizzato esistente dalle versioni precedenti di Gemini. Dovrai eseguire un nuovo job di ottimizzazione con un modello Gemini 2.0 o successivo.

Quando esegui l'ottimizzazione con un nuovo modello Gemini, inizia utilizzando gli iperparametri di ottimizzazione predefiniti anziché riutilizzare i valori degli iperparametri che hai utilizzato con le versioni precedenti di Gemini, poiché il servizio di ottimizzazione è stato ottimizzato per le versioni più recenti di Gemini. Il riutilizzo dei valori degli iperparametri ottimizzati per le versioni precedenti probabilmente non produrrà i risultati migliori.

Test di regressione

Esistono tre tipi principali di test di regressione coinvolti durante l'upgrade all'ultima versione di Gemini:

  1. Test di regressione del codice:test di regressione dal punto di vista dell'ingegneria del software e delle operazioni di sviluppo (DevOps). Questo tipo di test di regressione è sempre richiesto.
  2. Test di regressione del rendimento del modello:test di regressione dal punto di vista della data science o del machine learning. Ciò significa garantire che la nuova versione del modello Gemini fornisca output che almeno mantengano lo stesso livello di qualità della versione precedente.

    I test di regressione delle prestazioni del modello sono valutazioni del modello eseguite nell'ambito di una modifica a un sistema o al modello sottostante e possono essere suddivisi nei seguenti tipi:

    • Test delle prestazioni offline: test che verificano la qualità degli output del modello in un ambiente di sperimentazione dedicato in base a varie metriche di qualità dell'output del modello.
    • Test delle prestazioni del modello online: test che verificano la qualità degli output del modello in un deployment online live in base al feedback degli utenti implicito o esplicito.
  3. Test di carico:test che valutano il modo in cui l'applicazione gestisce volumi elevati di richieste di inferenza. Questo tipo di test di regressione è obbligatorio per le applicazioni che utilizzano Provisioned Throughput.

Come eseguire la migrazione all'ultima versione

Le sezioni seguenti descrivono i passaggi per eseguire la migrazione all'ultima versione di Gemini. Per risultati ottimali, ti consigliamo di completare questi passaggi nell'ordine indicato.

1. Requisiti di valutazione e test del modello di documento

  1. Preparati a ripetere le valutazioni pertinenti che hai eseguito quando hai creato l'applicazione, nonché quelle che hai eseguito da allora.
  2. Se ritieni che le valutazioni esistenti non coprano o misurino in modo appropriato l'ampiezza delle attività eseguite dalla tua applicazione, devi progettare e preparare valutazioni aggiuntive.
  3. Se la tua applicazione prevede l'utilizzo di RAG, strumenti, workflow complessi degli agenti o catene di prompt, assicurati che i dati di valutazione esistenti consentano di valutare ogni componente in modo indipendente. In caso contrario, raccogli esempi di input-output per ogni componente.
  4. Se la tua applicazione ha un impatto particolarmente elevato o se fa parte di un sistema in tempo reale più grande rivolto agli utenti, devi includere la valutazione online.

2. Eseguire upgrade del codice ed eseguire test

Esegui l'upgrade all'SDK Google Gen AI

Se la tua applicazione Gemini 1.x utilizza l'SDK Vertex AI, esegui l'upgrade all'SDK Gen AI. Per ulteriori informazioni, consulta la nostra guida alla migrazione dell'SDK Vertex AI, inclusi esempi di codice su come effettuare chiamate equivalenti utilizzando l'SDK Gen AI. Le release dell'SDK Vertex AI successive a giugno 2026 non supporteranno Gemini e le nuove funzionalità di Gemini 2 saranno disponibili solo nell'SDK Gen AI.

Se non hai mai utilizzato Gen AI SDK, consulta il notebook Guida introduttiva a Google Generative AI utilizzando Gen AI SDK.

Modificare le chiamate con Gemini

Modifica il codice di previsione per utilizzare Gemini 2. Come minimo, ciò significa modificare il nome dell'endpoint del modello specifico in un modello Gemini 2 in cui caricare il modello.

La modifica esatta del codice varia a seconda di come hai implementato originariamente l'applicazione e, in particolare, se hai utilizzato l'SDK Gen AI o l'SDK Vertex AI.

Dopo aver apportato le modifiche al codice, esegui test di regressione del codice e altri test del software sul codice per assicurarti che funzioni. Questo test ha lo scopo di valutare se il codice funziona correttamente. Non ha lo scopo di valutare la qualità delle risposte del modello.

Modifiche al codice che causano interruzioni dell'indirizzo

In questo passaggio concentrati solo sulle modifiche al codice. Potresti dover apportare altre modifiche, ma aspetta di iniziare la valutazione, poi considera il seguente aggiustamento in base ai risultati della valutazione:

  • Se passi al recupero dinamico, potresti dover sperimentare con le istruzioni di sistema per controllare quando viene utilizzata la Ricerca Google (ad esempio, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."), ma aspetta di effettuare la valutazione prima di apportare modifiche al prompt.
  • Se hai utilizzato il parametro Top-K, regola altri parametri di campionamento dei token, ad esempio Top-P, per ottenere risultati simili.

3. Eseguire valutazioni offline

Ripeti la valutazione che hai eseguito durante lo sviluppo e il lancio iniziale della tua applicazione, qualsiasi ulteriore valutazione offline che hai eseguito dopo il lancio e qualsiasi valutazione aggiuntiva che hai identificato nel passaggio 1. Se ritieni che la tua valutazione non rifletta appieno l'ampiezza e la profondità della tua applicazione, esegui un'ulteriore valutazione.

Se non disponi di un modo automatizzato per eseguire le valutazioni offline, valuta la possibilità di utilizzare Gen AI evaluation service.

Se la tua applicazione utilizza il fine-tuning, esegui la valutazione offline prima di eseguire nuovamente l'ottimizzazione del modello con Gemini 2. La migliore qualità dell'output di Gemini 2 potrebbe significare che la tua applicazione non richiede più un modello ottimizzato.

4. Valuta i risultati della valutazione e ottimizza i prompt e gli iperparametri di Gemini 2

Se la valutazione offline mostra un calo delle prestazioni con Gemini 2, itera sull'applicazione come segue finché le prestazioni di Gemini non corrispondono a quelle del modello precedente:

5. Esegui test di carico

Se la tua applicazione richiede una determinata velocità effettiva minima, esegui test di carico per assicurarti che la versione Gemini 2 della tua applicazione soddisfi i requisiti di velocità effettiva.

Il test di carico deve essere eseguito prima della valutazione online, perché quest'ultima richiede l'esposizione di Gemini 2 al traffico di produzione. Utilizza la strumentazione di test di carico esistente per eseguire questo passaggio.

Se la tua applicazione soddisfa già i requisiti di velocità effettiva, valuta la possibilità di utilizzare la velocità effettiva di cui è stato eseguito il provisioning. Avrai bisogno di un throughput con provisioning a breve termine aggiuntivo per coprire i test di carico mentre l'ordine di throughput con provisioning esistente continua a gestire il traffico di produzione.

6. (Facoltativo) Esegui valutazioni online

Procedi alla valutazione online solo se la valutazione offline mostra una qualità adeguata dell'output di Gemini e la tua applicazione richiede una valutazione online.

La valutazione online è un caso speciale di test online. Prova a utilizzare gli strumenti e le procedure esistenti della tua organizzazione per la valutazione online. Ad esempio:

  • Se la tua organizzazione esegue regolarmente test A/B, esegui un test A/B che valuti l'implementazione attuale della tua applicazione rispetto alla versione di Gemini 2.
  • Se la tua organizzazione esegue regolarmente deployment canary, assicurati di farlo con Gemini 2 e misura le differenze nel comportamento degli utenti.

La valutazione online può essere eseguita anche integrando nuove funzionalità di feedback e misurazione nella tua applicazione. Funzionalità di feedback e misurazione diverse sono adatte ad applicazioni diverse. Ad esempio:

  • Aggiunta dei pulsanti Mi piace e Non mi piace accanto agli output del modello e confronto tra i tassi di Mi piace e Non mi piace di un modello precedente e di Gemini 2.
  • Mostrando agli utenti l'output del modello precedente e di Gemini 2 uno accanto all'altro e chiedendo agli utenti di scegliere il loro preferito.
  • Monitoraggio della frequenza con cui gli utenti sostituiscono o modificano manualmente i risultati del modello precedente rispetto a quelli di Gemini 2.

Questi tipi di meccanismi di feedback spesso richiedono l'esecuzione di una versione Gemini 2 della tua applicazione in parallelo alla versione esistente. Questo deployment parallelo è talvolta chiamato "modalità shadow" o "deployment blu/verde".

Se i risultati della valutazione online differiscono in modo significativo da quelli della valutazione offline, quest'ultima non acquisisce gli aspetti chiave dell'ambiente live o dell'esperienza utente. Utilizza i risultati della valutazione online per ideare una nuova valutazione offline per colmare la lacuna evidenziata dalla valutazione online, quindi torna al passaggio 3.

Se utilizzi la capacità di trasmissione di cui è stato eseguito il provisioning, potresti dover acquistare una capacità di trasmissione di cui è stato eseguito il provisioning a breve termine aggiuntiva per continuare a soddisfare i requisiti di capacità di trasmissione per gli utenti soggetti a valutazione online.

7. Distribuzione in produzione

Una volta che la valutazione mostra che Gemini 2 soddisfa o supera le prestazioni di un modello precedente, disattiva la versione esistente dell'applicazione a favore della versione Gemini 2. Segui le procedure esistenti della tua organizzazione per l'implementazione della produzione.

Se utilizzi il throughput riservato, modifica l'ordine del throughput riservato con il modello Gemini 2 che hai scelto. Se esegui il deployment dell'applicazione in modo incrementale, utilizza il throughput di provisioning a breve termine per soddisfare i requisiti di throughput per due diversi modelli Gemini.

Migliorare le prestazioni del modello

Man mano che completi la migrazione, utilizza i seguenti suggerimenti per massimizzare il rendimento del modello Gemini 2:

  • Controlla le istruzioni di sistema, i prompt e gli esempi di apprendimento few-shot per eventuali incongruenze, contraddizioni o istruzioni ed esempi non pertinenti.
  • Prova un modello più potente. Ad esempio, se hai valutato Gemini 2.0 Flash-Lite, prova Gemini 2.0 Flash.
  • Esamina i risultati di qualsiasi valutazione automatica per assicurarti che corrispondano al giudizio umano, in particolare i risultati che utilizzano un modello di valutazione. Assicurati che le istruzioni del modello di valutazione non contengano incongruenze o ambiguità.
  • Un modo per migliorare le istruzioni del modello di valutazione è testarle con più persone in isolamento e verificare se i loro giudizi sono coerenti. Se gli esseri umani interpretano le istruzioni in modo diverso ed emettono giudizi diversi, le istruzioni del modello di giudice sono ambigue.
  • Ottimizza il modello Gemini 2.
  • Esamina gli output di valutazione per cercare pattern che mostrino tipi specifici di errori. Il raggruppamento degli errori in modelli, tipi o categorie diversi fornisce dati di valutazione più mirati, il che semplifica la modifica dei prompt per risolvere questi errori.
  • Assicurati di valutare in modo indipendente i diversi componenti dell'AI generativa.
  • Prova a modificare i parametri di campionamento dei token.

Assistenza

Se hai bisogno di aiuto, Google Cloud offre pacchetti di assistenza per soddisfare le tue esigenze, come servizi di copertura 24/7, assistenza telefonica e consulenza con un responsabile dell'assistenza tecnica. Per maggiori informazioni, consulta Assistenza diGoogle Cloud .

Passaggi successivi