In diesem Leitfaden erfahren Sie, wie Sie zur neuesten Version von Gemini migrieren. In diesem Leitfaden wird davon ausgegangen, dass Ihre Anwendung bereits eine ältere Version von Gemini verwendet. Informationen zu den ersten Schritten mit Gemini in Vertex AI finden Sie unter Gemini API in Vertex AI in der Vertex AI-Kurzanleitung.
In dieser Anleitung wird nicht beschrieben, wie Sie Ihre Anwendung vom Vertex AI SDK zur aktuellen Version des Google Gen AI SDK migrieren. Informationen zur Migration vom Vertex AI SDK zum Gen AI SDK finden Sie in unserem Migrationsleitfaden für das Vertex AI SDK.
Welche Änderungen sind zu erwarten?
Für die meisten vorhandenen generativen KI-Anwendungen sind keine wesentlichen Code- oder Prompt-Änderungen erforderlich, um ein Upgrade auf die neueste Version von Gemini durchzuführen. Bei einigen Anwendungen sind jedoch schnelle Änderungen erforderlich, die ohne vorheriges Ausführen eines Prompts in der neuesten Version nur schwer vorherzusagen sind. Wir empfehlen, vor der vollständigen Migration gründliche Tests mit der neuesten Version durchzuführen. Informationen zum Erstellen robuster Prompts Mithilfe unserer Checkliste für die Prompt-Integrität können Sie Probleme mit Ihren Prompts diagnostizieren und beheben.
Umfangreiche Codeänderungen sind nur für bestimmte Breaking Changes oder zur Nutzung neuer Gemini-Funktionen erforderlich.
Zu welchem Gemini-Modell sollte ich migrieren?
Das Gemini-Modell, zu dem Sie migrieren sollten, hängt von den Prioritäten Ihrer Anwendung und Anwendungsfälle ab. In der folgenden Tabelle werden ausgewählte Funktionen der eingestellten Gemini 1.5‑Modelle mit den neuesten Gemini-Modellen verglichen:
Funktion | 1.5 Pro | 1.5 Flash | 2.0 Flash | 2.0 Flash-Lite | 2.5 Pro | 2.5 Flash | 2.5 Flash-Lite |
---|---|---|---|---|---|---|---|
Startphase | Verworfen | Verworfen | Allgemein verfügbar | Allgemein verfügbar | Allgemein verfügbar | Allgemein verfügbar | Allgemein verfügbar |
Eingabemodalitäten |
|
|
|
|
|
|
|
Ausgabemodalitäten |
|
|
|
|
|
|
|
Kontextfenster, Gesamttokenlimit | 2.097.152 | 1.048.576 | 1.048.576 | 1.048.576 | 1.048.576 | 1.048.576 | 1.048.576 |
Länge des Ausgabekontexts | 8.192 (Standard) | 8.192 (Standard) | 8.192 (Standard) | 8.192 (Standard) | 65.535 (Standard) | 65.535 (Standard) | 65.536 (Standard) |
Fundierung mit der Google Suche | |||||||
Funktionsaufrufe | |||||||
Codeausführung | |||||||
Kontext-Caching | |||||||
Batchvorhersage | |||||||
Live API* | |||||||
Feinabstimmung | |||||||
Latenz | |||||||
Empfohlenes SDK | Vertex AI SDK | Vertex AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK |
Preiseinheiten | Zeichen | Zeichen | Token | Token | Token | Token | Token |
Einstellungsdatum | 24. September 2025 | 24. September 2025 | 5. Februar 2026 | 25. Februar 2026 | 17. Juni 2026 | 17. Juni 2026 | 22. Juli 2026 |
* Die Live API ist nur als Vorabangebot im Rahmen von gemini-live-2.5-flash
und gemini-live-2.5-flash-preview-native-audio
verfügbar.
Vor der Migration
Damit die Migration reibungslos verläuft, empfehlen wir, die folgenden Punkte zu berücksichtigen, bevor Sie mit der Migration beginnen:
- Informationssicherheit (InfoSec), Governance und behördliche Genehmigungen
- Verfügbarkeit nach Standort
- Preisunterschiede aufgrund von Modalität und Tokenisierung
- Provisioned Throughput-Aufträge kaufen oder ändern
- Überwachte Feinabstimmung
- Regressionstests
InfoSec, Governance und behördliche Genehmigungen
Fordern Sie die erforderlichen Genehmigungen proaktiv von Ihren Stakeholdern für Informationssicherheit, Risiko und Compliance an. Berücksichtigen Sie domainspezifische Risiko- und Compliance-Einschränkungen, insbesondere in stark regulierten Branchen wie dem Gesundheitswesen und Finanzdienstleistungen.
Standort-Verfügbarkeit
Google- und Partnermodelle sowie generative KI-Funktionen in Vertex AI werden als bestimmte regionale Endpunkte und als globaler Endpunkt bereitgestellt. Globale Endpunkte decken die ganze Welt ab und bieten eine höhere Verfügbarkeit und Zuverlässigkeit als einzelne Regionen.
Die Verfügbarkeit bestimmter Standorte für regionale Endpunkte variiert je nach Modell. Informationen zur Standortverfügbarkeit pro Modell finden Sie in unserem Leitfaden zu Standorten.
Preisunterschiede aufgrund von Modalität und Tokenisierung
Die Kosten variieren je nach Gemini-Modell. Auf unserer Preisseite finden Sie die Kosten für alle Modalitäten (Text, Code, Bilder, Sprache usw.) pro Modell.
Provisioned Throughput-Bestellungen kaufen oder ändern
Bei Bedarf können Sie zusätzlichen bereitgestellten Durchsatz erwerben oder bestehende Bestellungen für bereitgestellten Durchsatz ändern.
Überwachte Feinabstimmung
Die neuesten Gemini-Modelle bieten eine verbesserte Ausgabequalität. Möglicherweise ist für Ihre Anwendung kein feinabgestimmtes Modell mehr erforderlich. Wenn Ihre Anwendung überwachte Feinabstimmung mit einem älteren Gemini-Modell verwendet, testen Sie die Anwendung zuerst mit dem neuesten Modell ohne Feinabstimmung und bewerten Sie die Ergebnisse.
Wenn Sie sich für die überwachte Feinabstimmung entscheiden, können Sie Ihr vorhandenes abgestimmtes Modell nicht aus älteren Gemini-Versionen migrieren. Sie müssen einen neuen Tuning-Job mit einem Modell vom Typ „Gemini 2.0“ oder höher ausführen.
Wenn Sie ein neues Gemini-Modell abstimmen, sollten Sie mit den Standard-Hyperparametern für die Abstimmung beginnen, anstatt Hyperparameterwerte wiederzuverwenden, die Sie mit früheren Gemini-Versionen verwendet haben. Der Abstimmungsdienst wurde für die neuesten Gemini-Versionen optimiert. Die Wiederverwendung von Hyperparameterwerten, die für frühere Versionen optimiert wurden, führt wahrscheinlich nicht zu den besten Ergebnissen.
Regressionstests
Beim Upgrade auf die aktuelle Version von Gemini sind drei Haupttypen von Regressionstests erforderlich:
- Code-Regressionstests:Regressionstests aus der Perspektive von Software-Engineering und Developer Operations (DevOps). Diese Art von Regressionstests ist immer erforderlich.
-
Regressionstests für die Modellleistung:Regressionstests aus Data-Science- oder Machine-Learning-Sicht. Das bedeutet, dass die neue Gemini-Modellversion Ausgaben liefern muss, die mindestens die gleiche Qualität wie die vorherige Version haben.
Regressionstests für die Modellleistung sind Modellbewertungen, die im Rahmen einer Änderung an einem System oder am zugrunde liegenden Modell durchgeführt werden. Sie lassen sich in die folgenden Typen unterteilen:
- Offline-Leistungstests:Tests, mit denen die Qualität der Modellausgaben in einer dedizierten Testumgebung anhand verschiedener Qualitätsmesswerte für Modellausgaben überprüft wird.
- Onlinemodell-Leistungstests:Tests, mit denen die Qualität der Modellausgaben in einer Live-Onlinebereitstellung auf der Grundlage von implizitem oder explizitem Nutzerfeedback überprüft wird.
- Lasttests:Tests, mit denen ermittelt wird, wie die Anwendung mit einer großen Anzahl von Inferenzanfragen umgeht. Diese Art von Regressionstests ist für Anwendungen erforderlich, die Provisioned Throughput verwenden.
Zur neuesten Version migrieren
In den folgenden Abschnitten werden die Schritte für die Migration zur neuesten Gemini-Version beschrieben. Für optimale Ergebnisse empfehlen wir, diese Schritte in der angegebenen Reihenfolge auszuführen.
1. Anforderungen an die Bewertung und das Testen von Dokumentmodellen
- Bereiten Sie sich darauf vor, alle relevanten Bewertungen zu wiederholen, die Sie beim ursprünglichen Erstellen Ihrer Anwendung durchgeführt haben, sowie alle relevanten Bewertungen, die Sie seitdem durchgeführt haben.
- Wenn Sie der Meinung sind, dass Ihre bestehenden Bewertungen die Bandbreite der Aufgaben, die Ihre Anwendung ausführt, nicht angemessen abdecken oder messen, sollten Sie zusätzliche Bewertungen entwerfen und vorbereiten.
- Wenn Ihre Anwendung RAG, die Verwendung von Tools, komplexe Agent-Workflows oder Prompt-Ketten umfasst, müssen Sie dafür sorgen, dass Ihre vorhandenen Auswertungsdaten eine unabhängige Bewertung jeder Komponente ermöglichen. Falls nicht, sammeln Sie Beispiele für Eingabe und Ausgabe für jede Komponente.
- Wenn Ihre Anwendung besonders wirkungsvoll ist oder Teil eines größeren, nutzerorientierten Echtzeitsystems ist, sollten Sie eine Online-Bewertung einbeziehen.
2. Code aktualisieren und Tests ausführen
Auf das Google Gen AI SDK umstellen
Wenn Ihre Gemini 1.x-Anwendung das Vertex AI SDK verwendet, führen Sie ein Upgrade auf das Gen AI SDK durch. Weitere Informationen, einschließlich Codebeispielen für entsprechende Aufrufe mit dem Gen AI SDK, finden Sie in unserem Migrationsleitfaden für das Vertex AI SDK. Versionen des Vertex AI SDK nach Juni 2026 unterstützen Gemini nicht mehr. Neue Gemini 2-Funktionen sind nur im Gen AI SDK verfügbar.
Wenn Sie das Gen AI SDK noch nicht kennen, sehen Sie sich das Notebook Erste Schritte mit der generativen KI von Google und dem Gen AI SDK an.
Gemini-Anrufe ändern
Vorhersagecode für Gemini 2 ändern Das bedeutet mindestens, dass Sie den Namen des spezifischen Modellendpunkts in ein Gemini 2-Modell ändern müssen, in das Sie Ihr Modell laden.
Die genaue Codeänderung hängt davon ab, wie Sie Ihre Anwendung ursprünglich implementiert haben, insbesondere davon, ob Sie das Gen AI SDK oder das Vertex AI SDK verwendet haben.
Nachdem Sie die Codeänderungen vorgenommen haben, führen Sie Regressionstests und andere Softwaretests für Ihren Code durch, um sicherzustellen, dass er ausgeführt wird. Mit diesem Test soll nur geprüft werden, ob der Code richtig funktioniert. Sie ist nicht dazu gedacht, die Qualität von Modellantworten zu bewerten.
Wichtige Codeänderungen berücksichtigen
- Dynamischer Abruf: Wechseln Sie zur Fundierung mit der Google Suche. Für diese Funktion ist das Gen AI SDK erforderlich. Sie wird vom Vertex AI SDK nicht unterstützt.
- Inhaltsfilter: Beachten Sie die Standardeinstellungen für Inhaltsfilter und ändern Sie Ihren Code, wenn er auf einer Standardeinstellung basiert, die sich geändert hat.
Top-K
-Parameter für das Token-Sampling: Bei Modellen nachgemini-1.0-pro-vision
wird das Ändern desTop-K
-Parameters nicht unterstützt.
Konzentrieren Sie sich in diesem Schritt nur auf Codeänderungen. Möglicherweise müssen Sie weitere Änderungen vornehmen. Warten Sie jedoch, bis Sie mit der Bewertung beginnen, und berücksichtigen Sie dann die folgende Anpassung basierend auf den Bewertungsergebnissen:
- Wenn Sie von der dynamischen Abfrage wechseln, müssen Sie möglicherweise mit Systemanweisungen experimentieren, um zu steuern, wann die Google Suche verwendet wird (z. B.
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."
). Warten Sie jedoch mit Änderungen am Prompt, bis Sie die Ergebnisse ausgewertet haben. - Wenn Sie den Parameter
Top-K
verwendet haben, passen Sie andere Parameter für die Token-Auswahl an, z. B.Top-P
, um ähnliche Ergebnisse zu erzielen.
3. Offline-Evaluierungen durchführen
Wiederholen Sie die Bewertung, die Sie bei der ursprünglichen Entwicklung und Einführung Ihrer Anwendung durchgeführt haben, alle weiteren Offlinebewertungen, die Sie nach der Einführung durchgeführt haben, und alle zusätzlichen Bewertungen, die Sie in Schritt 1 identifiziert haben. Wenn Sie der Meinung sind, dass Ihre Bewertung nicht die gesamte Bandbreite und Tiefe Ihrer Anwendung abdeckt, führen Sie weitere Bewertungen durch.
Wenn Sie Ihre Offline-Bewertungen nicht automatisch ausführen können, sollten Sie den Gen AI Evaluation Service verwenden.
Wenn Ihre Anwendung die Feinabstimmung verwendet, führen Sie eine Offline-Bewertung durch, bevor Sie Ihr Modell mit Gemini 2 neu abstimmen. Die verbesserte Ausgabequalität von Gemini 2 kann dazu führen, dass für Ihre Anwendung kein feinabgestimmtes Modell mehr erforderlich ist.
4. Bewertungsergebnisse analysieren und Gemini 2-Prompts und ‑Hyperparameter optimieren
Wenn bei der Offline-Bewertung ein Leistungsabfall mit Gemini 2 festgestellt wird, gehen Sie so vor, bis die Leistung von Gemini dem älteren Modell entspricht:
- Optimieren Sie Ihre Prompts iterativ, um die Leistung zu verbessern („Hill Climbing“). Wenn Sie sich noch nicht mit Hill Climbing auskennen, sehen Sie sich das Vertex Gemini Hill Climbing-Onlinetraining an. Der Vertex AI Prompt-Optimierer (Beispiel-Notebook) kann Ihnen ebenfalls helfen.
- Wenn Ihre Anwendung bereits auf der Feinabstimmung basiert, versuchen Sie, Gemini 2 abzustimmen.
- Wenn Ihre Anwendung von den Breaking Changes für Dynamic Retrieval und Top-K betroffen ist, können Sie mit Änderungen an den Parametern für Prompt und Token-Sampling experimentieren.
5. Lasttests ausführen
Wenn für Ihre Anwendung ein bestimmter Mindestdurchsatz erforderlich ist, führen Sie einen Lasttest durch, um sicherzustellen, dass die Gemini 2-Version Ihrer Anwendung Ihre Durchsatzanforderungen erfüllt.
Lasttests sollten vor der Onlinebewertung erfolgen, da bei der Onlinebewertung Gemini 2 dem Produktions-Traffic ausgesetzt wird. Verwenden Sie Ihre vorhandene Instrumentierung für Lasttests, um diesen Schritt auszuführen.
Wenn Ihre Anwendung die Durchsatzanforderungen bereits erfüllt, sollten Sie Provisioned Throughput verwenden. Sie benötigen zusätzlichen kurzfristigen bereitgestellten Durchsatz, um Lasttests durchzuführen, während Ihre bestehende Bestellung für bereitgestellten Durchsatz weiterhin Produktionsdatenverkehr verarbeitet.
6. (Optional) Onlinebewertungen durchführen
Fahren Sie nur mit der Onlinebewertung fort, wenn Ihre Offlinebewertung eine angemessene Gemini-Ausgabequalität ergibt und Ihre Anwendung eine Onlinebewertung erfordert.
Die Online-Bewertung ist ein Sonderfall von Onlinetests. Verwenden Sie die vorhandenen Tools und Verfahren Ihrer Organisation für die Onlinebewertung. Beispiel:
- Wenn Ihre Organisation regelmäßig A/B-Tests durchführt, sollten Sie einen A/B-Test durchführen, bei dem die aktuelle Implementierung Ihrer Anwendung mit der Gemini 2-Version verglichen wird.
- Wenn Ihre Organisation regelmäßig Canary-Bereitstellungen durchführt, sollten Sie dies auch mit Gemini 2 tun und Unterschiede im Nutzerverhalten messen.
Sie können auch neue Funktionen für Feedback und Analysen in Ihre Anwendung einbauen, um sie online zu testen. Für verschiedene Anwendungen sind unterschiedliche Feedback- und Analysefunktionen geeignet. Beispiel:
- Wir haben neben den Modellausgaben Schaltflächen für „Mag ich“ und „Mag ich nicht“ eingefügt und die Raten für „Mag ich“ und „Mag ich nicht“ zwischen einem älteren Modell und Gemini 2 verglichen.
- Wir präsentieren Nutzern die Ausgabe des älteren Modells und von Gemini 2 nebeneinander und bitten sie, ihren Favoriten auszuwählen.
- Wir erfassen, wie oft Nutzer ältere Modell- im Vergleich zu Gemini 2-Ausgaben überschreiben oder manuell anpassen.
Für diese Art von Feedbackmechanismen ist es oft erforderlich, eine Gemini 2-Version Ihrer Anwendung parallel zur vorhandenen Version auszuführen. Diese parallele Bereitstellung wird manchmal als „Schattenmodus“ oder „Blau-Grün-Bereitstellung“ bezeichnet.
Wenn sich die Ergebnisse der Online-Bewertung erheblich von denen der Offline-Bewertung unterscheiden, werden bei der Offline-Bewertung wichtige Aspekte der Live-Umgebung oder der Nutzererfahrung nicht berücksichtigt. Nutzen Sie die Ergebnisse der Onlinebewertung, um eine neue Offlinebewertung zu entwickeln, die die Lücke schließt, die durch die Onlinebewertung aufgedeckt wurde. Gehen Sie dann zu Schritt 3 zurück.
Wenn Sie Provisioned Throughput verwenden, müssen Sie möglicherweise zusätzlichen kurzfristigen Provisioned Throughput erwerben, um weiterhin die Durchsatzanforderungen für Nutzer zu erfüllen, die einer Online-Bewertung unterliegen.
7. Für die Produktion bereitstellen
Wenn Ihre Bewertung zeigt, dass Gemini 2 die Leistung eines älteren Modells erreicht oder übertrifft, sollten Sie die vorhandene Version Ihrer Anwendung zugunsten der Gemini 2-Version herunterfahren. Halten Sie sich an die bestehenden Verfahren Ihrer Organisation für die Einführung in der Produktion.
Wenn Sie Provisioned Throughput verwenden, ändern Sie die Bestellung für den bereitgestellten Durchsatz in das von Ihnen ausgewählte Gemini 2-Modell. Wenn Sie Ihre Anwendung inkrementell einführen, können Sie kurzfristigen bereitgestellten Durchsatz verwenden, um die Durchsatzanforderungen für zwei verschiedene Gemini-Modelle zu erfüllen.
Modellleistung verbessern
Wenn Sie die Migration abschließen, können Sie die folgenden Tipps nutzen, um die Leistung von Gemini 2 zu maximieren:
- Prüfen Sie Ihre Systemanweisungen, Prompts und Few-Shot-Learning-Beispiele auf Inkonsistenzen, Widersprüche oder irrelevante Anweisungen und Beispiele.
- Leistungsstärkeres Modell testen Wenn Sie beispielsweise Gemini 2.0 Flash-Lite getestet haben, probieren Sie Gemini 2.0 Flash aus.
- Prüfen Sie alle automatisierten Bewertungsergebnisse, um sicherzustellen, dass sie mit der menschlichen Einschätzung übereinstimmen, insbesondere Ergebnisse, bei denen ein Judge-Modell verwendet wird. Die Anweisungen für Ihr Bewertungsmodell dürfen keine Inkonsistenzen oder Unklarheiten enthalten.
- Eine Möglichkeit, die Anweisungen für das Judge-Modell zu verbessern, besteht darin, sie isoliert von mehreren Personen testen zu lassen und zu prüfen, ob ihre Bewertungen übereinstimmen. Wenn Menschen die Anweisungen unterschiedlich interpretieren und unterschiedliche Bewertungen abgeben, sind die Anweisungen für Ihr Judge-Modell mehrdeutig.
- Gemini 2-Modell feinabstimmen
- Untersuchen Sie die Ausgaben der Bewertung auf Muster, die auf bestimmte Arten von Fehlern hinweisen. Wenn Sie Fehler in verschiedenen Modellen, Arten oder Kategorien gruppieren, erhalten Sie gezieltere Auswertungsdaten. So können Sie Prompts leichter anpassen, um diese Fehler zu beheben.
- Achten Sie darauf, dass Sie verschiedene Komponenten generativer KI unabhängig voneinander bewerten.
- Experimentieren Sie mit der Anpassung der Parameter für das Token-Sampling.
Hilfe
Wenn Sie Hilfe benötigen, bietet Google Cloud Supportpakete für Ihre Anforderungen, etwa Rund-um-die-Uhr-Verfügbarkeit, Telefonsupport und Kontakt mit einem technischen Supportmanager. Weitere Informationen finden Sie unter Google Cloud -Support.
Nächste Schritte
- Lesen Sie die Liste mit häufig gestellten Fragen.
- Von der PaLM API zur Gemini API in Vertex AI migrieren