Cette page a été traduite par l'API Cloud Translation.

Modèles compatibles

Les tableaux suivants présentent les modèles compatibles avec le débit provisionné, le débit pour chaque unité d'échelle d'IA générative (GSU) et les taux d'utilisation pour chaque modèle.

Modèles Google

Le débit provisionné n'est compatible qu'avec les modèles que vous appelez directement depuis votre projet à l'aide de l'ID de modèle spécifique, et non d'un alias de modèle. Pour utiliser le débit provisionné afin d'effectuer des appels d'API vers un modèle, vous devez utiliser l'ID de version de modèle spécifique (par exemple, gemini-2.0-flash-001) et non un alias de version de modèle.

De plus, le débit provisionné n'est pas compatible avec les modèles appelés par d'autres produits Vertex AI, tels que Vertex AI Agents et Vertex AI Search. Par exemple, si vous effectuez des appels d'API vers Gemini 2.0 Flash lorsque vous utilisez Vertex AI Search, votre commande de débit provisionné pour Gemini 2.0 Flash ne garantit pas les appels effectués par Vertex AI Search.

Le débit provisionné n'est pas compatible avec les appels de prédiction par lots.

Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles Google compatibles avec le débit provisionné. Votre débit par seconde est défini comme la somme des caractères d'entrée de votre requête et des caractères de sortie du texte généré pour toutes les requêtes, par seconde.

Pour connaître le nombre de jetons requis par votre charge de travail, consultez le tokenizer du SDK ou l'API countTokens.

Modèle	Débit par seconde et par GSU	Unités	Incrément d'achat GSU minimal	Taux d'utilisation
Gemini 2.5 Flash avec l'API Live Dernière version compatible : `gemini-live-2.5-flash`	1620	Jetons	1	1 jeton de texte en entrée = 1 jeton de texte en entrée 1 jeton audio en entrée = 6 jetons de texte en entrée 1 jeton vidéo en entrée = 6 jetons de texte en entrée 1 jeton de mémoire de session en entrée = 1 jeton de texte en entrée 1 jeton de texte en sortie = 4 jetons de texte en entrée 1 jeton audio en sortie = 24 jetons de texte en entrée
Aperçu des images Gemini 2.5 Flash Dernière version compatible : `gemini-2.5-flash-image-preview` (preview)	2690	Jetons	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton de texte en sortie = 9 jetons 1 jeton d'image en sortie = 100 jetons
Gemini 2.5 Flash-Lite Dernière version compatible : `gemini-2.5-flash-lite`	8070	Jetons	1	1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 3 jetons 1 jeton de texte de réponse de sortie = 4 jetons 1 jeton de texte de raisonnement de sortie = 4 jetons
Gemini 2.5 Pro Dernière version compatible : `gemini-2.5-pro`	650	Jetons	1	Moins de 200 000 jetons d'entrée : 1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 1 jeton 1 jeton de texte de réponse de sortie = 8 jetons 1 jeton de texte de raisonnement de sortie = 8 jetons Plus de 200 000 jetons d'entrée : 1 jeton de texte d'entrée = 2 jetons 1 jeton d'image d'entrée = 2 jetons 1 jeton vidéo d'entrée = 2 jetons 1 jeton audio d'entrée = 2 jetons 1 jeton de texte de réponse de sortie = 12 jetons 1 jeton de texte de raisonnement de sortie = 12 jetons
Gemini 2.5 Flash Dernière version compatible : `gemini-2.5-flash`	2690	Jetons	1	1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 4 jetons 1 jeton de texte de réponse de sortie = 9 jetons 1 jeton de texte de raisonnement de sortie = 9 jetons
Gemini 2.0 Flash Dernière version compatible : `gemini-2.0-flash-001`	3360	Jetons	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton vidéo en entrée = 1 jeton 1 jeton audio en entrée = 7 jetons 1 jeton de texte en sortie = 4 jetons
Gemini 2.0 Flash-Lite Dernière version compatible : `gemini-2.0-flash-lite-001`	6720	Jetons	1	1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton vidéo en entrée = 1 jeton 1 jeton audio en entrée = 1 jeton 1 jeton de texte en sortie = 4 jetons
Veo 3 Dernière version compatible : `veo-3.0-generate-001`	0,0016	Secondes de vidéo	167	1 seconde de sortie vidéo = 1 seconde de sortie vidéo
Veo 3 Dernière version compatible : `veo-3.0-generate-001`	0,0016	Secondes de vidéo et d'audio	267	1 seconde de sortie vidéo+audio = 1,6 seconde de sortie vidéo
Veo 3 Fast Dernière version compatible : `veo-3.0-fast-generate-001`	0,0032	Secondes de vidéo	84	1 seconde de sortie vidéo = 1 seconde de sortie vidéo
	0,0032	Secondes de vidéo et d'audio	134	1 seconde de sortie vidéo+audio = 1,6 seconde de sortie vidéo
Imagen 3	0,025	Images	1	Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné.
Imagen 3 Fast	0,05	Images	1	Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné.
MedLM-medium Attention : MedLM est obsolète. L'accès à MedLM ne sera plus disponible à partir du 29 septembre 2025.	2 000	Caractères	1	1 caractère d'entrée = 1 caractère 1 caractère de sortie = 2 caractères
MedLM large Attention : MedLM est obsolète. L'accès à MedLM ne sera plus disponible à partir du 29 septembre 2025.	200	Caractères	1	1 caractère d'entrée = 1 caractère 1 caractère de sortie = 3 caractères
MedLM-Large-1.5 Attention : MedLM est obsolète. L'accès à MedLM ne sera plus disponible à partir du 29 septembre 2025.	200	Caractères	1	1 caractère d'entrée = 1 caractère 1 caractère de sortie = 3 caractères

Pour en savoir plus sur les capacités d'un modèle et les limites d'entrée ou de sortie, consultez la documentation du modèle.

Demander l'accès : le modèle gemini-live-2.5-flash est en disponibilité générale privée. Pour en savoir plus sur l'accès à cette version, consultez la page de demande d'accès.

Vous pouvez passer à de nouveaux modèles dès qu'ils sont disponibles. Pour en savoir plus sur la disponibilité des modèles et les dates d'arrêt, consultez Modèles Google.

Pour en savoir plus sur les emplacements compatibles, consultez la section Emplacements disponibles.

Compatibilité du modèle de point de terminaison global

Le débit provisionné est compatible avec le point de terminaison mondial pour les modèles suivants :

Modèle	Dernière version du modèle compatible
Aperçu de l'image Gemini 2.5 Flash (aperçu)	`gemini-2.5-flash-image-preview`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite`
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.0 Flash	`gemini-2.5-flash`
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

Le trafic qui dépasse le quota de débit provisionné utilise le point de terminaison mondial par défaut.

Pour attribuer un débit provisionné au point de terminaison mondial d'un modèle, sélectionnez global comme région lorsque vous passez une commande de débit provisionné.

Compatibilité avec les modèles affinés de manière supervisée

Les éléments suivants sont compatibles avec les modèles Google qui acceptent l'affinage supervisé :

Le débit provisionné peut être appliqué aux modèles de base et aux versions affinées supervisées de ces modèles de base.
Les points de terminaison des modèles affinés supervisés et leur modèle de base correspondant sont comptabilisés dans le même quota de débit provisionné.

Par exemple, le débit provisionné acheté pour gemini-2.0-flash-lite-001 pour un projet spécifique donne la priorité aux requêtes effectuées à partir de versions affinées supervisées de gemini-2.0-flash-lite-001 créées dans ce projet. Utilisez l'en-tête approprié pour contrôler le comportement du trafic.

Modèles de partenaires

Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles partenaires compatibles avec le débit provisionné. Les modèles Claude sont mesurés en jetons par seconde, c'est-à-dire le nombre total de jetons d'entrée et de sortie pour l'ensemble des requêtes, par seconde.

Modèle	Débit par GSU (jetons/seconde)	Achat minimal de GSU	Incrément d'achat de GSU	Taux d'utilisation
Claude Opus 4.1 d'Anthropic	70	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude Opus 4 d'Anthropic	70	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude Sonnet 4 d'Anthropic	350	25	1	Moins de 200 000 jetons d'entrée : 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de lecture dans le cache = 0,1 jeton 200 000 jetons d'entrée ou plus : 1 jeton d'entrée = 2 jetons 1 jeton de sortie = 7,5 jetons 1 jeton d'écriture dans le cache = 2,5 jetons 1 jeton de succès de cache (hit) = 0,2 jeton
Claude 3.7 Sonnet d'Anthropic	350	25	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3.5 Sonnet v2 d'Anthropic (obsolète)	350	25	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3.5 Haiku d'Anthropic	2 000	10	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3 Opus d'Anthropic	70	35	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3 Haiku d'Anthropic	4 200	5	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton
Claude 3.5 Sonnet d'Anthropic (obsolète)	350	25	1	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton

Pour en savoir plus sur les régions disponibles, consultez Disponibilité des régions Anthropic Claude. Pour commander un débit provisionné pour les modèles Anthropic, contactez votre responsable de compte.Google Cloud

Étapes suivantes

Calculez les exigences de débit provisionné.

Modèles compatibles Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Modèles Google

Compatibilité du modèle de point de terminaison global

Compatibilité avec les modèles affinés de manière supervisée

Modèles de partenaires

Étapes suivantes

Modèles compatibles