Cliquez sur le nom et l'ID de version du modèle que vous souhaitez déployer pour ouvrir sa page d'informations.
Sélectionnez l'onglet Déployer et tester.
Si votre modèle est déjà déployé sur des points de terminaison, ceux-ci sont listés dans la section Déployer votre modèle.
Cliquez sur Déployer sur un point de terminaison.
Pour déployer votre modèle sur un nouveau point de terminaison:
Sélectionnez radio_button_checkedCréer un point de terminaison.
Attribuez un nom au nouveau point de terminaison.
Pour créer un point de terminaison public dédié (non partagé), cochez la case Activer le DNS dédié.
Cliquez sur Continuer.
Pour déployer votre modèle sur un point de terminaison existant:
Sélectionnez radio_button_checkedAjouter à un point de terminaison existant.
Sélectionnez le point de terminaison dans la liste déroulante.
Cliquez sur Continuer.
Vous pouvez déployer plusieurs modèles sur un point de terminaison ou le même modèle sur plusieurs points de terminaison.
Si vous déployez votre modèle sur un point de terminaison existant qui contient un ou plusieurs modèles déployés, vous devez mettre à jour le pourcentage de répartition du trafic du modèle que vous déployez et des modèles déjà déployés afin que le pourcentage cumulé de tous les pourcentages soit égal à 100 %.
Si vous déployez votre modèle sur un nouveau point de terminaison, acceptez la valeur 100 pour la répartition du trafic. Sinon, ajustez les valeurs de répartition du trafic pour tous les modèles sur le point de terminaison afin d'atteindre 100.
Saisissez le nombre de nœuds de calcul que vous souhaitez fournir pour votre modèle.
Il s'agit du nombre de nœuds qui doivent être disponibles pour le modèle à tout moment.
Les nœuds utilisés vous sont facturés, que ce soit pour gérer la charge d'inférence ou pour les nœuds de secours (minimum), même sans trafic d'inférence. Consultez la page des tarifs.
Le nombre de nœuds de calcul peut augmenter en cas de nécessité pour gérer le trafic d'inférence, mais celui-ci ne dépassera jamais le nombre maximal de nœuds.
Pour utiliser l'autoscaling, saisissez le nombre maximal de nœuds de calcul que vous souhaitez que Vertex AI puisse effectuer.
Sélectionnez un Type d'accélérateur et un Nombre d'accélérateurs.
Si vous avez activé l'utilisation de l'accélérateur lorsque vous avez importé ou créé le modèle, cette option s'affiche.
Pour connaître le nombre d'accélérateurs, consultez la table GPU pour vérifier le nombre de GPU valides que vous pouvez utiliser avec chaque type de machine. Le nombre d'accélérateurs fait référence au nombre d'accélérateurs par nœud, et non au nombre total d'accélérateurs dans votre déploiement.
Si vous souhaitez utiliser un compte de service personnalisé pour le déploiement, sélectionnez un compte de service dans la boîte déroulante Compte de service.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/02 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/02 (UTC)."],[],[],null,["# Deploy a model by using the Google Cloud console\n\nIn the Google Cloud console, you can create a\n[public endpoint](/vertex-ai/docs/predictions/choose-endpoint-type)\nand deploy a model to it.\n\nModels can be deployed from the\nOnline prediction page or the Model Registry\npage.\n\nDeploy a model from the Online prediction page\n----------------------------------------------\n\nIn the Online prediction page, you can create an endpoint and deploy\none or more models to it as follows:\n\n1. In the Google Cloud console, in the Vertex AI section, go\n to the **Online prediction** page.\n\n [Go to the Online prediction page](https://console.cloud.google.com/vertex-ai/online-prediction/endpoints)\n2. Click add **Create**.\n\n3. In the **New endpoint** pane:\n\n 1. Enter the **Endpoint name**.\n\n 2. Select **Standard** for the access type.\n\n 3. To create a dedicated (not shared) public endpoint, select the\n **Enable dedicated DNS** checkbox.\n\n 4. Click **Continue**.\n\n4. In the **Model settings** pane:\n\n 1. Select your model from the drop-down list.\n\n 2. Choose the model version from the drop-down list.\n\n 3. Enter the **Traffic split** percentage for the model.\n\n 4. Click **Done**.\n\n 5. Repeat these steps for any additional models to be deployed.\n\nDeploy a model from the Model Registry page\n-------------------------------------------\n\nIn the Model Registry page, you can deploy a model to one\nor more new or existing endpoints as follows:\n\n1. In the Google Cloud console, in the Vertex AI section, go\n to the **Models** page.\n\n [Go to the Models page](https://console.cloud.google.com/vertex-ai/models)\n2. Click the name and version ID of the model you want to deploy to open\n its details page.\n\n3. Select the **Deploy \\& Test** tab.\n\n If your model is already deployed to any endpoints, they are listed in the\n **Deploy your model** section.\n4. Click **Deploy to endpoint**.\n\n5. To deploy your model to a new endpoint:\n\n 1. Select radio_button_checked**Create new endpoint**\n 2. Provide a name for the new endpoint.\n 3. To create a dedicated (not shared) public endpoint, select the **Enable dedicated DNS** checkbox.\n 4. Click **Continue**.\n\n To deploy your model to an existing endpoint:\n 1. Select radio_button_checked**Add to existing endpoint**.\n 2. Select the endpoint from the drop-down list.\n 3. Click **Continue**.\n\n You can deploy multiple models to an endpoint, or you can deploy the\n same model to multiple endpoints.\n6. If you deploy your model to an existing endpoint that has one or more\n models deployed to it, you must update the **Traffic split** percentage\n for the model you are deploying and the already deployed models so that all\n of the percentages add up to 100%.\n\n7.\n If you're deploying your model to a new endpoint, accept 100 for the\n **Traffic split**. Otherwise, adjust the traffic split values for\n all models on the endpoint so they add up to 100.\n\n8. Enter the **Minimum number of compute nodes** you want to provide for\n your model.\n\n This is the number of nodes that need to be available to the model at all times.\n\n You are charged for the nodes used, whether to handle inference load or for\n standby (minimum) nodes, even without inference traffic. See the\n [pricing page](/vertex-ai/pricing).\n\n The number of compute nodes can increase if needed to handle inference\n traffic, but it will never go higher than the maximum number of nodes.\n9. To use autoscaling, enter the **Maximum number of compute nodes** you\n want Vertex AI to scale up to.\n\n10. Select your **Machine type**.\n\n Larger machine resources increase your inference performance and\n increase costs.\n [Compare the available machine types](/vertex-ai/docs/predictions/configure-compute#machine_type_comparison).\n11. Select an **Accelerator type** and an **Accelerator count**.\n\n If you enabled accelerator use when you [imported](/vertex-ai/docs/model-registry/import-model)\n or created the model, this option displays.\n\n For the accelerator count, refer to the [GPU\n table](/vertex-ai/docs/predictions/configure-compute#gpus) to check for valid numbers\n of GPUs that you can use with each CPU machine type. The accelerator\n count refers to the number of accelerators per node, not the total\n number of accelerators in your deployment.\n12. If you want to use a [custom service\n account](/vertex-ai/docs/general/custom-service-account) for the deployment, select\n a service account in the **Service account** drop-down box.\n\n13.\n Learn how to [change the\n default settings for inference logging](/vertex-ai/docs/predictions/online-prediction-logging#enabling-and-disabling).\n\n14.\n Click **Done** for your model, and when all the **Traffic split**\n percentages are correct, click **Continue**.\n\n The region where your model deploys is displayed. This\n must be the region where you created your model.\n\n \u003cbr /\u003e\n\n15.\n Click **Deploy** to deploy your model to the endpoint.\n\nWhat's next\n-----------\n\n- Learn how to [get an online inference](/vertex-ai/docs/predictions/get-online-predictions).\n- Learn how to [change the\n default settings for inference logging](/vertex-ai/docs/predictions/online-prediction-logging#enabling-and-disabling)."]]