En esta guía, se muestra cómo migrar a la versión más reciente de Gemini. En esta guía, se supone que tu aplicación ya usa una versión anterior de Gemini. Para obtener información sobre cómo comenzar a usar Gemini en Vertex AI, consulta la guía de inicio rápido de la API de Gemini en Vertex AI.
En esta guía, no se explica cómo migrar tu aplicación del SDK de Vertex AI a la versión actual del SDK de IA generativa de Google. Si deseas obtener información para migrar del SDK de Vertex AI al SDK de IA generativa, consulta nuestra guía de migración del SDK de Vertex AI.
¿Qué cambios debo esperar?
Actualizar la mayoría de las aplicaciones existentes de IA generativa a la versión más reciente de Gemini no requiere cambios significativos en el código ni en las instrucciones. Sin embargo, algunas aplicaciones requieren cambios rápidos, y estos cambios son difíciles de predecir sin ejecutar primero una instrucción a través de la versión más reciente. Se recomienda realizar pruebas exhaustivas con la versión más reciente antes de la migración completa. Consulta nuestra guía de estrategias de instrucciones para obtener información sobre cómo crear instrucciones sólidas. Usa nuestra lista de verificación del estado de las instrucciones para diagnosticar y depurar problemas con tus instrucciones.
Solo se necesitan cambios significativos en el código para ciertos cambios que interrumpen la compatibilidad o para usar nuevas capacidades de Gemini.
¿A qué modelo de Gemini debería migrar?
El modelo de Gemini al que debes migrar depende de las prioridades de tu aplicación y tus casos de uso. En la siguiente tabla, se comparan algunas funciones seleccionadas entre los modelos obsoletos de Gemini 1.5 y los modelos más recientes de Gemini:
Función | 1.5 Pro | 1.5 Flash | 2.0 Flash | 2.0 Flash-Lite | 2.5 Pro | 2.5 Flash | 2.5 Flash-Lite |
---|---|---|---|---|---|---|---|
Etapa de lanzamiento | Obsoleto | Obsoleto | Disponible de manera general | Disponible de manera general | Disponible de manera general | Disponible de manera general | Disponible de manera general |
Modalidades de entrada |
|
|
|
|
|
|
|
Modalidades de salida |
|
|
|
|
|
|
|
Ventana de contexto y límite total de tokens | 2,097,152 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 |
Longitud del contexto de salida | 8,192 (valor predeterminado) | 8,192 (valor predeterminado) | 8,192 (valor predeterminado) | 8,192 (valor predeterminado) | 65,535 (predeterminado) | 65,535 (predeterminado) | 65,536 (predeterminado) |
Grounding with Google Search | |||||||
Llamada a función | |||||||
Ejecución de código | |||||||
Almacenamiento en caché del contexto | |||||||
Predicción por lotes | |||||||
API de Live* | |||||||
Ajuste | |||||||
Latencia | |||||||
SDK recomendado | SDK de Vertex AI | SDK de Vertex AI | SDK de IA generativa | SDK de IA generativa | SDK de IA generativa | SDK de IA generativa | SDK de IA generativa |
Unidades de precio | “Basado | “Basado | Token | Token | Token | Token | Token |
Fecha de baja | 24 de septiembre de 2025 | 24 de septiembre de 2025 | 5 de febrero de 2026 | 25 de febrero de 2026 | 17 de junio de 2026 | 17 de junio de 2026 | 22 de julio de 2026 |
* La API de Live solo está disponible como oferta de vista previa como parte de gemini-live-2.5-flash
y gemini-live-2.5-flash-preview-native-audio
.
Antes de comenzar la migración
Para una migración sin problemas, te recomendamos que abordes las siguientes inquietudes antes de comenzar el proceso de migración:
- Seguridad de la información (InfoSec), administración y aprobaciones reglamentarias
- Disponibilidad de la ubicación
- Diferencias de precios basadas en la modalidad y la tokenización
- Cómo comprar o cambiar pedidos de capacidad de procesamiento aprovisionada
- Ajuste supervisado
- Pruebas de regresión
Aprobaciones regulatorias, de administración y de InfoSec
Solicita de forma proactiva las aprobaciones que necesitas de las partes interesadas de seguridad de la información (InfoSec), riesgo y cumplimiento. Asegúrate de abarcar las restricciones de cumplimiento y riesgo específicas del dominio, en especial en industrias muy reguladas, como la atención médica y los servicios financieros.
Disponibilidad de ubicación
Los modelos de Google y de socios, y las funciones de IA generativa en Vertex AI se exponen como extremos regionales específicos y un extremo global. Los extremos globales abarcan todo el mundo y proporcionan mayor disponibilidad y confiabilidad que las regiones individuales.
La disponibilidad de ubicaciones específicas para los extremos regionales varía según el modelo. Para obtener información sobre la disponibilidad de ubicaciones por modelo, consulta nuestra guía de ubicaciones.
Diferencias de precios basadas en la modalidad y la tokenización
Los costos de precios varían según el modelo de Gemini. En nuestra página de precios, se indican los costos de todas las modalidades (texto, código, imágenes, voz, etc.) por modelo.
Compra o cambia pedidos de capacidad de procesamiento aprovisionada
Si es necesario, compra capacidad de procesamiento aprovisionada adicional o cambia los pedidos existentes de capacidad de procesamiento aprovisionada.
Ajuste supervisado
Los modelos de Gemini más recientes proporcionan una mejor calidad de los resultados, lo que puede significar que tu aplicación ya no requiere el uso de un modelo ajustado. Si tu aplicación usa el ajuste supervisado con un modelo de Gemini anterior, primero prueba tu aplicación con el modelo más reciente sin ajustar y evalúa los resultados.
Si decides usar el ajuste supervisado, no podrás migrar tu modelo ajustado existente desde versiones anteriores de Gemini. Deberás ejecutar un nuevo trabajo de ajuste con un modelo de Gemini 2.0 o posterior.
Cuando realices el ajuste con un nuevo modelo de Gemini, comienza por usar los hiperparámetros de ajuste predeterminados en lugar de reutilizar los valores de hiperparámetros que usaste con versiones anteriores de Gemini, ya que el servicio de ajuste se optimizó para las versiones más recientes de Gemini. Es probable que reutilizar los valores de hiperparámetros optimizados para versiones anteriores no produzca los mejores resultados.
Pruebas de regresión
Existen tres tipos principales de pruebas de regresión que se realizan cuando se actualiza a la versión más reciente de Gemini:
- Pruebas de regresión de código: Pruebas de regresión desde una perspectiva de ingeniería de software y operaciones para desarrolladores (DevOps) Este tipo de prueba de regresión siempre es obligatoria.
-
Pruebas de regresión del rendimiento del modelo: Pruebas de regresión desde una perspectiva de ciencia de datos o aprendizaje automático. Esto significa garantizar que la nueva versión del modelo de Gemini proporcione resultados que, al menos, mantengan el mismo nivel de calidad que la versión anterior.
Las pruebas de regresión del rendimiento del modelo son evaluaciones del modelo que se realizan como parte de un cambio en un sistema o en el modelo subyacente, y se pueden subdividir en los siguientes tipos:
- Pruebas de rendimiento sin conexión: Son pruebas que confirman la calidad de los resultados del modelo en un entorno de experimentación dedicado basado en varias métricas de calidad de los resultados del modelo.
- Pruebas de rendimiento del modelo en línea: Pruebas que confirman la calidad de los resultados del modelo en una implementación en línea activa según los comentarios implícitos o explícitos de los usuarios.
- Pruebas de carga: Pruebas que evalúan cómo la aplicación controla grandes volúmenes de solicitudes de inferencia. Este tipo de prueba de regresión es obligatorio para las aplicaciones que usan capacidad de procesamiento aprovisionada.
Cómo migrar a la versión más reciente
En las siguientes secciones, se describen los pasos para migrar a la versión más reciente de Gemini. Para obtener mejores resultados, te recomendamos que completes estos pasos en orden.
1. Requisitos de evaluación y prueba del modelo de documentos
- Prepárate para repetir las evaluaciones pertinentes que realizaste cuando creaste la aplicación originalmente, junto con las evaluaciones pertinentes que hayas realizado desde entonces.
- Si crees que tus evaluaciones existentes no abarcan o miden de forma adecuada la amplitud de las tareas que realiza tu aplicación, debes diseñar y preparar evaluaciones adicionales.
- Si tu aplicación involucra RAG, uso de herramientas, flujos de trabajo complejos de agentes o cadenas de instrucciones, asegúrate de que tus datos de evaluación existentes permitan evaluar cada componente de forma independiente. Si no es así, recopila ejemplos de entrada y salida para cada componente.
- Si tu aplicación tiene un impacto especialmente alto o si forma parte de un sistema en tiempo real más grande orientado al usuario, debes incluir la evaluación en línea.
2. Realizar actualizaciones de código y ejecutar pruebas
Actualiza al SDK de IA generativa de Google
Si tu aplicación de Gemini 1.x usa el SDK de Vertex AI, actualízala al SDK de IA generativa. Consulta nuestra guía de migración del SDK de Vertex AI para obtener más información, incluidos ejemplos de código sobre cómo realizar llamadas equivalentes con el SDK de IA generativa. Las versiones del SDK de Vertex AI posteriores a junio de 2026 no admitirán Gemini, y las nuevas capacidades de Gemini 2 solo estarán disponibles en el SDK de IA generativa.
Si no conoces el SDK de IA generativa, consulta el notebook Comienza a usar la IA generativa de Google con el SDK de IA generativa.
Cómo cambiar las llamadas de Gemini
Cambia tu código de predicción para usar Gemini 2. Como mínimo, esto significa cambiar el nombre específico del extremo del modelo a un modelo de Gemini 2 en el que cargas tu modelo.
El cambio de código exacto variará según cómo implementaste originalmente tu aplicación y, en especial, si usaste el SDK de IA generativa o el SDK de Vertex AI.
Después de realizar los cambios en el código, ejecuta pruebas de regresión del código y otras pruebas de software para asegurarte de que se ejecute. Esta prueba solo tiene como objetivo evaluar si el código funciona correctamente. No está diseñado para evaluar la calidad de las respuestas del modelo.
Aborda los cambios rotundos en el código
- Recuperación dinámica: Cambia a Fundamentación con la Búsqueda de Google. Esta función requiere el uso del SDK de IA generativa y no es compatible con el SDK de Vertex AI.
- Filtros de contenido: Ten en cuenta la configuración predeterminada de los filtros de contenido y cambia tu código si depende de un valor predeterminado que haya cambiado.
- Parámetro de muestreo de tokens
Top-K
: Los modelos posteriores agemini-1.0-pro-vision
no admiten el cambio del parámetroTop-K
.
En este paso, enfócate solo en los cambios de código. Es posible que debas realizar otros cambios, pero espera hasta que comiences la evaluación y, luego, considera el siguiente ajuste según los resultados de la evaluación:
- Si cambias de la recuperación dinámica, es posible que debas experimentar con instrucciones del sistema para controlar cuándo se usa la Búsqueda de Google (por ejemplo,
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."
), pero espera hasta que realices la evaluación antes de hacer cambios en las instrucciones. - Si usaste el parámetro
Top-K
, ajusta otros parámetros de muestreo de tokens, comoTop-P
, para obtener resultados similares.
3. Ejecuta evaluaciones sin conexión
Repite la evaluación que realizaste cuando desarrollaste y lanzaste originalmente tu aplicación, cualquier otra evaluación sin conexión que hayas realizado después del lanzamiento y cualquier evaluación adicional que hayas identificado en el paso 1. Si luego sientes que tu evaluación no capta por completo la amplitud y la profundidad de tu aplicación, realiza una evaluación adicional.
Si no tienes una forma automatizada de ejecutar tus evaluaciones sin conexión, considera usar el servicio de evaluación de IA generativa.
Si tu aplicación usa el ajuste, realiza una evaluación sin conexión antes de volver a ajustar tu modelo con Gemini 2. La calidad mejorada de la respuesta de Gemini 2 puede significar que tu aplicación ya no requiere un modelo ajustado.
4. Evalúa los resultados de la evaluación y ajusta las instrucciones y los hiperparámetros de Gemini 2
Si tu evaluación sin conexión muestra una disminución en el rendimiento con Gemini 2, itera en tu aplicación de la siguiente manera hasta que el rendimiento de Gemini coincida con el del modelo anterior:
- Diseña tus instrucciones de forma iterativa para mejorar el rendimiento ("Hill Climbing"). Si es la primera vez que usas el método de ascenso de colinas, consulta la capacitación en línea sobre el método de ascenso de colinas de Vertex Gemini. El optimizador de instrucciones de Vertex AI (notebook de ejemplo) también puede ayudarte.
- Si tu aplicación ya se basa en el ajuste, intenta ajustar Gemini 2.
- Si tu aplicación se ve afectada por los cambios disruptivos de la recuperación dinámica y Top-K, experimenta con cambiar los parámetros de muestreo de instrucciones y tokens.
5. Ejecuta pruebas de carga
Si tu aplicación requiere un rendimiento mínimo determinado, realiza pruebas de carga para asegurarte de que la versión de Gemini 2 de tu aplicación cumpla con los requisitos de rendimiento.
Las pruebas de carga deben realizarse antes de la evaluación en línea, ya que esta requiere exponer Gemini 2 al tráfico de producción. Usa tu instrumentación de pruebas de carga existente para realizar este paso.
Si tu aplicación ya cumple con los requisitos de capacidad de procesamiento, considera usar la capacidad de procesamiento aprovisionada. Necesitarás un rendimiento aprovisionado adicional a corto plazo para cubrir las pruebas de carga mientras tu pedido de rendimiento aprovisionado existente sigue atendiendo el tráfico de producción.
6. (Opcional) Ejecuta evaluaciones en línea
Solo procede a la evaluación en línea si la evaluación sin conexión muestra una calidad adecuada de los resultados de Gemini y tu aplicación requiere una evaluación en línea.
La evaluación en línea es un caso especial de las pruebas en línea. Intenta usar las herramientas y los procedimientos existentes de tu organización para la evaluación en línea. Por ejemplo:
- Si tu organización realiza pruebas A/B con regularidad, realiza una prueba A/B que evalúe la implementación actual de tu aplicación en comparación con la versión de Gemini 2.
- Si tu organización realiza implementaciones canary con regularidad, asegúrate de hacerlo con Gemini 2 y medir las diferencias en el comportamiento de los usuarios.
También puedes realizar la evaluación en línea incorporando nuevas capacidades de medición y comentarios en tu aplicación. Las diferentes capacidades de medición y comentarios son adecuadas para diferentes aplicaciones. Por ejemplo:
- Agregamos botones de Me gusta y No me gusta junto a los resultados del modelo, y comparamos las tasas de Me gusta y No me gusta entre un modelo anterior y Gemini 2.
- Presentar a los usuarios el modelo anterior y los resultados de Gemini 2 uno al lado del otro, y pedirles que elijan su favorito
- Hacemos un seguimiento de la frecuencia con la que los usuarios anulan o ajustan manualmente los resultados de modelos anteriores en comparación con los de Gemini 2.
Estos tipos de mecanismos de comentarios suelen requerir que ejecutes una versión de Gemini 2 de tu aplicación en paralelo con la versión existente. A veces, esta implementación paralela se denomina "modo sombra" o "implementación azul-verde".
Si los resultados de la evaluación en línea difieren significativamente de los de la evaluación sin conexión, significa que la evaluación sin conexión no capta aspectos clave del entorno real ni de la experiencia del usuario. Usa los resultados de la evaluación en línea para diseñar una nueva evaluación sin conexión que abarque la brecha que expuso la evaluación en línea y, luego, vuelve al paso 3.
Si usas la capacidad de procesamiento aprovisionada, es posible que debas comprar capacidad de procesamiento aprovisionada adicional a corto plazo para seguir satisfaciendo tus requisitos de capacidad de procesamiento para los usuarios sujetos a la evaluación en línea.
7. Implementar en producción
Una vez que tu evaluación muestre que Gemini 2 cumple o supera el rendimiento de un modelo anterior, reduce la versión existente de tu aplicación en favor de la versión de Gemini 2. Sigue los procedimientos existentes de tu organización para el lanzamiento de producción.
Si usas la capacidad de procesamiento aprovisionada, cambia el pedido de capacidad de procesamiento aprovisionada al modelo de Gemini 2 que elegiste. Si implementas tu aplicación de forma incremental, usa el rendimiento aprovisionado a corto plazo para cumplir con los requisitos de rendimiento de dos modelos de Gemini diferentes.
Mejora el rendimiento del modelo
A medida que completes la migración, usa las siguientes sugerencias para maximizar el rendimiento del modelo de Gemini 2:
- Inspecciona tus instrucciones del sistema, instrucciones y ejemplos de aprendizaje con pocos ejemplos para detectar inconsistencias, contradicciones o instrucciones y ejemplos irrelevantes.
- Probar un modelo más potente Por ejemplo, si evaluaste Gemini 2.0 Flash-Lite, prueba Gemini 2.0 Flash.
- Examina los resultados de cualquier evaluación automatizada para asegurarte de que coincidan con el criterio humano, en especial los resultados que usan un modelo de juez. Asegúrate de que las instrucciones de tu modelo de juez no contengan inconsistencias ni ambigüedades.
- Una forma de mejorar las instrucciones del modelo de jueces es probarlas con varias personas de forma aislada y ver si sus juicios son coherentes. Si los evaluadores humanos interpretan las instrucciones de manera diferente y emiten juicios distintos, las instrucciones de tu modelo de juez son ambiguas.
- Ajusta el modelo de Gemini 2.
- Examina los resultados de la evaluación para buscar patrones que muestren tipos específicos de errores. Agrupar las fallas en diferentes modelos, tipos o categorías te brinda datos de evaluación más específicos, lo que facilita el ajuste de las instrucciones para abordar estos errores.
- Asegúrate de evaluar de forma independiente los diferentes componentes de la IA generativa.
- Experimenta con el ajuste de los parámetros de muestreo de tokens.
Obtén ayuda
Si necesitas ayuda, Google Cloud ofrece paquetes de asistencia para satisfacer tus necesidades, como asistencia telefónica, cobertura las 24 horas, todos los días y acceso a un administrador de asistencia técnica. Para obtener más información, consulta Asistencia deGoogle Cloud .
¿Qué sigue?
- Lee la lista de preguntas frecuentes.
- Migra de la API de PaLM a la API de Gemini en Vertex AI.