Cette page a été traduite par l'API Cloud Translation.

Déployer un modèle à l'aide de la console Google Cloud

Dans la console Google Cloud , vous pouvez créer un point de terminaison public et y déployer un modèle.

Les modèles peuvent être déployés depuis la page "Prédictions en ligne" ou la page "Registre de modèles".

Déployer un modèle depuis la page "Prédiction en ligne"

Sur la page "Prédiction en ligne", vous pouvez créer un point de terminaison et y déployer un ou plusieurs modèles comme suit:

Dans la section Vertex AI de la console Google Cloud , accédez à la page Prédiction en ligne.

Accéder à la page "Prédiction en ligne"
Cliquez sur Créer.
Dans le volet Nouveau point de terminaison :
1. Saisissez le nom du point de terminaison.
2. Sélectionnez Standard pour le type d'accès.
3. Pour créer un point de terminaison public dédié (non partagé), cochez la case Activer le DNS dédié.
4. Cliquez sur Continuer.
Dans le volet Paramètres du modèle:
1. Sélectionnez votre modèle dans la liste déroulante.
2. Sélectionnez la version du modèle dans la liste déroulante.
3. Saisissez le pourcentage de Répartition du trafic pour le modèle.
4. Cliquez sur OK.
5. Répétez ces étapes pour tous les autres modèles à déployer.

Déployer un modèle à partir de la page Model Registry

Sur la page du registre de modèles, vous pouvez déployer un modèle sur un ou plusieurs points de terminaison nouveaux ou existants comme suit:

Dans la console Google Cloud , dans la section Vertex AI, accédez à la page Modèles.

Accéder à la page "Modèles"
Cliquez sur le nom et l'ID de version du modèle que vous souhaitez déployer pour ouvrir sa page d'informations.
Sélectionnez l'onglet Déployer et tester.

Si votre modèle est déjà déployé sur des points de terminaison, ceux-ci sont listés dans la section Déployer votre modèle.
Cliquez sur Déployer sur un point de terminaison.
Pour déployer votre modèle sur un nouveau point de terminaison:
1. Sélectionnez Créer un point de terminaison.
2. Attribuez un nom au nouveau point de terminaison.
3. Pour créer un point de terminaison public dédié (non partagé), cochez la case Activer le DNS dédié.
4. Cliquez sur Continuer.
Pour déployer votre modèle sur un point de terminaison existant:
1. Sélectionnez Ajouter à un point de terminaison existant.
2. Sélectionnez le point de terminaison dans la liste déroulante.
3. Cliquez sur Continuer.
Vous pouvez déployer plusieurs modèles sur un point de terminaison ou le même modèle sur plusieurs points de terminaison.
Si vous déployez votre modèle sur un point de terminaison existant qui contient un ou plusieurs modèles déployés, vous devez mettre à jour le pourcentage de répartition du trafic du modèle que vous déployez et des modèles déjà déployés afin que le pourcentage cumulé de tous les pourcentages soit égal à 100 %.
Si vous déployez votre modèle sur un nouveau point de terminaison, acceptez la valeur 100 pour la répartition du trafic. Sinon, ajustez les valeurs de répartition du trafic pour tous les modèles sur le point de terminaison afin d'atteindre 100.
Saisissez le nombre de nœuds de calcul que vous souhaitez fournir pour votre modèle.

Il s'agit du nombre de nœuds qui doivent être disponibles pour le modèle à tout moment.

Les nœuds utilisés vous sont facturés, que ce soit pour gérer la charge d'inférence ou pour les nœuds de secours (minimum), même sans trafic d'inférence. Consultez la page des tarifs.

Le nombre de nœuds de calcul peut augmenter en cas de nécessité pour gérer le trafic d'inférence, mais celui-ci ne dépassera jamais le nombre maximal de nœuds.
Pour utiliser l'autoscaling, saisissez le nombre maximal de nœuds de calcul que vous souhaitez que Vertex AI puisse effectuer.
Sélectionnez un type de machine.

Des ressources de plus grande capacité améliorent les performances d'inférence et augmentent les coûts. Comparez les types de machines disponibles.
Sélectionnez un Type d'accélérateur et un Nombre d'accélérateurs.

Si vous avez activé l'utilisation de l'accélérateur lorsque vous avez importé ou créé le modèle, cette option s'affiche.

Pour connaître le nombre d'accélérateurs, consultez la table GPU pour vérifier le nombre de GPU valides que vous pouvez utiliser avec chaque type de machine. Le nombre d'accélérateurs fait référence au nombre d'accélérateurs par nœud, et non au nombre total d'accélérateurs dans votre déploiement.
Si vous souhaitez utiliser un compte de service personnalisé pour le déploiement, sélectionnez un compte de service dans la boîte déroulante Compte de service.
Découvrez comment modifier les paramètres par défaut pour la journalisation des inférences.
Cliquez sur OK pour votre modèle, et lorsque tous les pourcentages de répartition du trafic sont corrects, cliquez sur Continuer.
La région dans laquelle le modèle est déployé s'affiche. Il doit s'agir de la région dans laquelle vous avez créé votre modèle.
Cliquez sur Déployer pour déployer votre modèle sur le point de terminaison.

Étapes suivantes

Découvrez comment obtenir une inférence en ligne.
Découvrez comment modifier les paramètres par défaut pour la journalisation des inférences.

Déployer un modèle à l'aide de la console Google Cloud Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Déployer un modèle depuis la page "Prédiction en ligne"

Déployer un modèle à partir de la page Model Registry

Étapes suivantes

Déployer un modèle à l'aide de la console Google Cloud