Migrer vers les derniers modèles Gemini

Ce guide explique comment migrer vers la dernière version de Gemini. Ce guide suppose que votre application utilise déjà une ancienne version de Gemini. Pour savoir comment commencer à utiliser Gemini dans Vertex AI, consultez API Gemini dans Vertex AI dans le guide de démarrage rapide de Vertex AI.

Ce guide n'explique pas comment migrer votre application du SDK Vertex AI vers la version actuelle du SDK Google Gen AI. Pour savoir comment migrer du SDK Vertex AI vers le SDK Gen AI, consultez notre guide de migration du SDK Vertex AI.

À quoi dois-je m'attendre ?

La mise à niveau de la plupart des applications d'IA générative existantes vers la dernière version de Gemini ne nécessite pas de modifications importantes du code ni des requêtes. Toutefois, les requêtes de certaines applications doivent être modifiées. Ces modifications sont difficiles à prévoir sans exécuter d'abord les requêtes dans la dernière version. Nous vous recommandons de tester minutieusement la dernière version avant de migrer complètement. Pour savoir comment créer des requêtes robustes, consultez nos conseils sur les stratégies de requêtes. Utilisez notre checklist sur l'état des requêtes pour diagnostiquer et résoudre les problèmes liés à vos requêtes.

Des modifications de code importantes ne sont nécessaires que pour certaines modifications destructives ou pour utiliser les nouvelles fonctionnalités de Gemini.

Vers quel modèle Gemini migrer ?

Le modèle Gemini vers lequel vous devez migrer dépend des priorités de votre application et de vos cas d'utilisation. Le tableau suivant compare certaines fonctionnalités entre les modèles Gemini 1.5 obsolètes et les derniers modèles Gemini :

Fonctionnalité 1.5 Pro 1.5 Flash 2.0 Flash 2.0 Flash-Lite 2.5 Pro 2.5 Flash 2.5 Flash-Lite
Étape de lancement Obsolète Obsolète Disponibilité générale Disponibilité générale Disponibilité générale Disponibilité générale Disponibilité générale
Modes d'entrée
Texte, Code, Images, Audio, Vidéo
Texte, Code, Images, Audio, Vidéo
Texte, Code, Images, Audio, Vidéo
Texte, Code, Images, Audio, Vidéo
Texte, Code, Images, Audio, Vidéo
Texte, Code, Images, Audio, Vidéo
Texte, Code, Images, Audio, Vidéo
Modes de sortie
Texte
Texte
Texte
Texte
Texte
Texte
Texte
Fenêtre de contexte, limite totale de jetons 2 097 152 1 048 576 1 048 576 1 048 576 1 048 576 1 048 576 1 048 576
Longueur du contexte de sortie 8 192 (par défaut) 8 192 (par défaut) 8 192 (par défaut) 8 192 (par défaut) 65 535 (par défaut) 65 535 (par défaut) 65 536 (par défaut)
Ancrage avec la recherche Google
Appel de fonction
Exécution de code
Mise en cache du contexte
Prédiction par lot
API Live*
Réglage fin
Latence
SDK recommandé SDK Vertex AI SDK Vertex AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI
Unités de tarification Caractère Caractère Jeton Jeton Jeton Jeton Jeton
Date d'arrêt 24 septembre 2025 24 septembre 2025 5 février 2026 25 février 2026 17 juin 2026 17 juin 2026 22 juillet 2026

* L'API Live n'est disponible qu'en version Preview dans gemini-live-2.5-flash et gemini-live-2.5-flash-preview-native-audio.

Avant de commencer la migration

Pour réussir votre migration, nous vous recommandons de tenir compte des points suivants avant de commencer :

Approbations InfoSec, de gouvernance et réglementaires

Demandez de manière proactive les approbations dont vous avez besoin auprès des personnes concernées par la sécurité des informations, les risques et la conformité. Assurez-vous de respecter les contraintes liées aux risques et à la conformité propres à votre domaine, en particulier si vous opérez dans un secteur très réglementé tel que les services financiers et la santé.

Disponibilité selon l'emplacement

Les modèles Google et partenaires, ainsi que les fonctionnalités d'IA générative sur Vertex AI, sont exposés sous la forme de points de terminaison régionaux spécifiques et d'un point de terminaison global. Les points de terminaison globaux couvrent le monde entier et offrent une disponibilité et une fiabilité supérieures à celles des régions uniques.

La disponibilité des points de terminaison régionaux varie selon les modèles. Pour en savoir plus sur la disponibilité des modèles par emplacement, consultez notre guide des emplacements.

Différences de prix basées sur les modes et la tokenisation

Les coûts varient selon le modèle Gemini. Notre page des tarifs indique les coûts pour toutes les modalités (texte, code, images, parole, etc.) par modèle.

Acheter ou modifier des commandes de débit provisionné

Si nécessaire, achetez du débit provisionné supplémentaire ou modifiez vos commandes de débit provisionné existantes.

Réglage supervisé

Les derniers modèles Gemini offrent une meilleure qualité de sortie, ce qui signifie que votre application n'aura peut-être plus besoin d'utiliser un modèle affiné. Si votre application utilise le réglage supervisé avec un ancien modèle Gemini, commencez par tester votre application à l'aide du dernier modèle sans réglage et évaluez les résultats.

Si vous décidez d'utiliser le réglage supervisé, vous ne pourrez pas migrer votre modèle réglé existant à partir d'anciennes versions de Gemini. Vous devrez exécuter un nouveau job d'ajustement avec un modèle Gemini 2.0 ou version ultérieure.

Lorsque vous effectuez des réglages avec un nouveau modèle Gemini, commencez par utiliser les hyperparamètres de réglage par défaut au lieu de réutiliser les valeurs d'hyperparamètres que vous avez définies dans les versions précédentes de Gemini. En effet, le service de réglage a été optimisé pour les dernières versions de Gemini. La réutilisation de valeurs d'hyperparamètres optimisées pour les versions précédentes ne donnera probablement pas les meilleurs résultats.

Test de régression

Il existe trois principaux types de tests de régression lors de la mise à niveau vers la dernière version de Gemini :

  1. Tests de régression du code : tests de régression pour l'ingénierie logicielle et les opérations de développement (DevOps). Ce type de test de régression est toujours obligatoire.
  2. Tests de régression des performances du modèle : tests de régression pour la data science ou le machine learning. Ces tests consistent à vérifier que la nouvelle version du modèle Gemini génère des sorties d'au moins aussi bonne qualité que celles de la version précédente.

    Les tests de régression des performances du modèle sont des évaluations de modèle effectuées lors de la modification d'un système ou du modèle sous-jacent. Ils peuvent être divisés en plusieurs types :

    • Tests des performances hors connexion : tests qui évaluent la qualité des sorties du modèle dans un environnement de test dédié, en fonction de différentes métriques de qualité.
    • Tests des performances du modèle en ligne : tests qui évaluent la qualité des sorties du modèle dans un déploiement en ligne, en fonction des commentaires implicites ou explicites des utilisateurs.
  3. Tests de charge : tests qui évaluent la façon dont l'application gère de grands volumes de requêtes d'inférence. Ce type de test de régression est obligatoire pour les applications qui utilisent le débit provisionné.

Migrer vers la dernière version

Les sections suivantes décrivent les étapes à suivre pour migrer vers la dernière version de Gemini. Pour obtenir les meilleurs résultats, nous vous recommandons de suivre ces étapes dans l'ordre.

1. Exigences concernant l'évaluation et les tests du modèle

  1. Préparez-vous à répéter toutes les évaluations pertinentes que vous avez effectuées lors de la création de votre application et toutes celles que vous avez effectuées depuis.
  2. Si vous pensez que vos évaluations existantes ne concernent pas ou ne mesurent pas correctement les tâches effectuées par votre application, vous devez concevoir et préparer d'autres évaluations.
  3. Si votre application implique le RAG, l'utilisation d'outils, des workflows d'agent complexes ou des chaînes de requêtes, vérifiez que vos données d'évaluation existantes permettent d'évaluer chaque composant indépendamment. Si ce n'est pas le cas, rassemblez des exemples d'entrées-sorties pour chaque composant.
  4. Si votre application a un impact particulièrement important ou si elle fait partie d'un système en temps réel plus vaste accessible aux utilisateurs, vous devez inclure une évaluation en ligne.

2. Mettre à niveau le code et exécuter des tests

Passer au SDK Google Gen AI

Si votre application Gemini 1.x utilise le SDK Vertex AI, passez au SDK Gen AI. Pour en savoir plus, y compris pour obtenir des exemples de code sur la façon d'effectuer des appels équivalents à l'aide du SDK Gen AI, consultez notre guide de migration du SDK Vertex AI. Les versions du SDK Vertex AI publiées après juin 2026 ne seront pas compatibles avec Gemini, et les nouvelles fonctionnalités Gemini 2 ne seront disponibles que dans le SDK Gen AI.

Si vous ne connaissez pas le SDK Gen AI, consultez le notebook Premiers pas avec l'IA générative de Google à l'aide du SDK Gen AI.

Modifier vos appels Gemini

Modifiez votre code de prédiction pour utiliser Gemini 2. Au minimum, vous devez remplacer le nom du point de terminaison du modèle spécifique par un modèle Gemini 2 où vous chargez votre modèle.

La modification exacte du code varie en fonction de la façon dont vous avez initialement implémenté votre application, et en particulier si vous avez utilisé le SDK Gen AI ou le SDK Vertex AI.

Une fois les modifications apportées, effectuez des tests de régression et d'autres tests logiciels sur votre code pour vous assurer qu'il s'exécute. Ce test ne sert qu'à vérifier que le code fonctionne correctement. Il n'est pas destiné à évaluer la qualité des réponses du modèle.

Corriger les modifications de code destructives

À ce stade, ne modifiez que votre code. Vous devrez peut-être apporter d'autres modifications. Attendez cependant les résultats de l'évaluation avant d'envisager les ajustements suivants :

  • Si vous utilisiez la récupération dynamique, vous devrez peut-être tester les instructions système pour contrôler quand la recherche Google est utilisée (par exemple, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). Toutefois, attendez d'avoir procédé à l'évaluation avant d'apporter des modifications aux requêtes.
  • Si vous avez utilisé le paramètre Top-K, ajustez les autres paramètres d'échantillonnage de jetons, tels que Top-P, pour obtenir des résultats similaires.

3. Exécuter des évaluations hors connexion

Répétez l'évaluation que vous avez effectuée lors du développement et du lancement de votre application, ainsi que toute évaluation hors connexion que vous avez effectuée après et toute évaluation supplémentaire que vous avez identifiée à l'étape 1. Si vous estimez que votre évaluation ne reflète pas pleinement votre application, effectuez une évaluation plus approfondie.

Si vous ne disposez pas d'une solution automatique pour exécuter vos évaluations hors connexion, envisagez d'utiliser Gen AI Evaluation Service.

Si votre application utilise le réglage, effectuez une évaluation hors connexion avant de reconfigurer votre modèle avec Gemini 2. Grâce à la qualité améliorée des sorties de Gemini 2, votre application n'aura peut-être plus besoin d'un modèle réglé.

4. Évaluer les résultats de l'évaluation et régler les requêtes et les hyperparamètres de Gemini 2

Si votre évaluation hors connexion révèle une baisse des performances avec Gemini 2, itérez sur votre application comme indiqué ci-dessous jusqu'à ce que les performances de Gemini correspondent à celles de l'ancien modèle :

5. Exécuter des tests de charge

Si votre application nécessite un débit minimal, effectuez un test de charge pour vous assurer que sa version avec Gemini 2 répond à vos exigences de débit.

Les tests de charge doivent être effectués avant l'évaluation en ligne, car cette dernière nécessite d'exposer Gemini 2 au trafic de production. Pour effectuer cette étape, utilisez votre instrumentation de test de charge existante.

Si votre application répond déjà aux exigences de débit, envisagez d'utiliser le débit provisionné. Vous aurez besoin d'un débit provisionné supplémentaire à court terme pour couvrir les tests de charge. Votre commande de débit provisionné existante sera utilisée pour diffuser le trafic de production.

6. (Facultatif) Exécuter des évaluations en ligne

N'effectuez l'évaluation en ligne que si votre évaluation hors connexion indique une bonne qualité de sortie de Gemini et qu'elle est requise par votre application.

L'évaluation en ligne est un cas particulier des tests en ligne. Essayez d'utiliser les outils et les procédures existants de votre organisation pour l'effectuer. Par exemple :

  • Si votre organisation effectue régulièrement des tests A/B, effectuez-en un qui évalue l'implémentation actuelle de votre application par rapport à la version Gemini 2.
  • Si votre organisation effectue régulièrement des déploiements Canary, veillez à le faire avec Gemini 2 et à mesurer les différences de comportement des utilisateurs.

Vous pouvez également effectuer une évaluation en ligne en créant de nouvelles fonctionnalités de commentaires et de mesure dans votre application. Ces fonctionnalités peuvent varier selon les applications. Par exemple :

  • Ajoutez de boutons "J'aime" et "Je n'aime pas" à côté des sorties du modèle, et comparez le nombre de "J'aime" et de "Je n'aime pas" entre votre ancien modèle et Gemini 2.
  • Présentez aux utilisateurs les sorties de l'ancien modèle et de Gemini 2 côte à côte, et demandez-leur de choisir celles qu'ils préfèrent.
  • Mesurez la fréquence à laquelle les utilisateurs remplacent ou ajustent manuellement les sorties de votre ancien modèle par rapport à celles de Gemini 2.

Ces fonctionnalités de commentaires nécessitent souvent d'exécuter une version de votre application avec Gemini 2 en parallèle de votre version existante. Ce déploiement parallèle est parfois appelé "mode shadow" ou "déploiement bleu-vert".

Si les résultats de l'évaluation en ligne sont très différents de ceux de l'évaluation hors connexion, cela signifie que votre évaluation hors connexion ne couvre pas les aspects clés de l'environnement en direct ou de l'expérience utilisateur. Utilisez les résultats de l'évaluation en ligne pour concevoir une nouvelle évaluation hors connexion qui s'en rapprochera, puis revenez à l'étape 3.

Si vous utilisez le débit provisionné, vous devrez peut-être acheter temporairement du débit provisionné supplémentaire pour continuer à répondre aux besoins en débit des utilisateurs effectuant l'évaluation en ligne.

7. Déployer en production

Une fois que votre évaluation montre que Gemini 2 atteint ou dépasse les performances de votre ancien modèle, désactivez la version existante de votre application pour passer à celle utilisant Gemini 2. Suivez les procédures existantes de votre organisation pour le déploiement en production.

Si vous utilisez le débit provisionné, modifiez votre commande de débit provisionné pour le modèle Gemini 2 de votre choix. Si vous déployez votre application progressivement, utilisez le débit provisionné à court terme pour répondre aux exigences de débit des deux modèles Gemini.

Améliorer les performances du modèle

Une fois votre migration terminée, suivez les conseils ci-dessous pour optimiser les performances du modèle Gemini 2 :

  • Examinez vos instructions système, vos requêtes et vos exemples d'apprentissage few-shot pour détecter les incohérences, les contradictions, ou les instructions et exemples non pertinents.
  • Testez un modèle plus puissant. Par exemple, si vous avez évalué Gemini 2.0 Flash-Lite, essayez Gemini 2.0 Flash.
  • Examinez les résultats de l'évaluation automatisée pour vous assurer qu'ils correspondent à ceux du jugement humain, en particulier les résultats qui utilisent un modèle d'évaluation. Assurez-vous que les instructions de votre modèle d'évaluation ne contiennent pas d'incohérences ni d'ambiguïtés.
  • Pour améliorer les instructions du modèle d'évaluation, vous pouvez les tester avec plusieurs personnes de manière isolée et vérifier si leurs jugements sont cohérents. Si ces personnes interprètent les instructions différemment et ont des jugements différents, les instructions de votre modèle d'évaluation sont ambiguës.
  • Réglez le modèle Gemini 2.
  • Examinez les résultats de l'évaluation pour rechercher des tendances de types d'échecs spécifiques. En regroupant les échecs dans différents modèles, types ou catégories, vous pouvez obtenir des données d'évaluation plus ciblées et ainsi ajuster plus facilement les requêtes pour corriger ces erreurs.
  • Assurez-vous d'évaluer indépendamment les différents composants d'IA générative.
  • Essayez d'ajuster les paramètres d'échantillonnage des jetons.

Obtenir de l'aide

Si vous avez besoin d'aide, Google Cloud propose des formules d'assistance répondant à différents besoins, telles que la couverture 24h/24, 7j/7, l'assistance téléphonique et l'accès à un responsable de l'assistance technique. Pour plus d'informations, consultez la page sur l'assistanceGoogle Cloud .

Étape suivante