Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cette page explique ce qu'est le débit provisionné et quand l'utiliser.
Présentation du débit provisionné
Le débit provisionné est un abonnement à coût et durée fixes, disponible en plusieurs durées, qui réserve du débit pour les modèles d'IA générative compatibles sur Vertex AI.
Pour réserver votre débit, vous devez spécifier le modèle et les emplacements disponibles dans lesquels il est exécuté.
Quand utiliser le débit provisionné ?
Si l'un des critères suivants s'applique à votre cas d'utilisation, envisagez d'utiliser le débit provisionné :
Vous créez des applications de production d'IA générative en temps réel, telles que des chatbots et des agents.
Vos charges de travail critiques nécessitent systématiquement un débit élevé. La mesure du débit dépend du modèle.
Vous souhaitez offrir une expérience cohérente et prévisible aux utilisateurs de vos applications.
Vous souhaitez avoir des coûts d'IA générative déterministes, en payant un prix mensuel ou hebdomadaire fixe avec un contrôle des dépassements.
Le débit provisionné est l'une des deux méthodes de consommation de vos modèles d'IA générative. La seconde méthode est le paiement à l'usage, également appelé paiement à la demande.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/02 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/02 (UTC)."],[],[],null,["# Provisioned Throughput overview\n\nThis page explains what Provisioned Throughput is and when to use Provisioned Throughput.\n\nIntroduction to Provisioned Throughput\n--------------------------------------\n\nProvisioned Throughput is a fixed-cost, fixed-term subscription\navailable in several term-lengths that reserves throughput for\n[supported generative AI models](/vertex-ai/generative-ai/docs/supported-models) on Vertex AI.\nTo reserve your throughput, you must specify the model and [available\nlocations](/vertex-ai/generative-ai/docs/learn/locations#available-regions) in which the model\nruns.\n\nWhen to use Provisioned Throughput\n----------------------------------\n\nIf any of the following considerations apply to your use case, consider using\nProvisioned Throughput:\n\n- You are building real-time generative AI production applications, such as chatbots and agents.\n- Your critical workloads consistently require high throughput. Throughput measurement depends on the model.\n- You want to provide a consistent and predictable experience for users of your applications.\n- You want deterministic generative AI costs by paying a fixed monthly or weekly price with control of overages.\n\nProvisioned Throughput is one of two ways to consume your\ngenerative AI models. The second way is pay-as-you-go, which is also referred to\nas [on-demand](/vertex-ai/generative-ai/docs/error-code-429#troubleshoot-dynamic-shared-quota).\n\nWhat's next\n-----------\n\n- [Supported models](/vertex-ai/generative-ai/docs/supported-models) using Provisioned Throughput."]]