Le workflow tabulaire pour AutoML de bout en bout est le pipeline AutoML complet pour les tâches de classification et de régression. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour la totalité du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :
Division des données
Ingénierie des caractéristiques
Recherche d'architecture
Entraînement du modèle
Assemblage du modèle
Distillation du modèle
Avantages
Voici quelques-uns des avantages du workflow tabulaire pour AutoML de bout en bout :
Il accepte les ensembles de données volumineux de plusieurs To et comportant jusqu'à 1 000 colonnes.
Il permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
Il permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
Il permet de réduire la taille du modèle et d'améliorer la latence avec la distillation ou en modifiant la taille de l'ensemble.
Chaque composant AutoML peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
Chaque composant AutoML offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.
AutoML de bout en bout sur Vertex AI Pipelines
Le workflow tabulaire pour AutoML de bout en bout est une instance gérée de Vertex AI Pipelines.
Vertex AI Pipelines est un service sans serveur qui exécute des pipelines Kubeflow. Vous pouvez utiliser des pipelines pour automatiser et surveiller vos tâches de machine learning et de préparation des données. Chaque étape d'un pipeline effectue une partie du workflow du pipeline. Par exemple, un pipeline peut inclure des étapes permettant de diviser les données, de transformer les types de données et d'entraîner un modèle. Comme les étapes sont des instances de composants du pipeline, elles comportent des entrées, des sorties et une image de conteneur. Les entrées d'étape peuvent être définies à partir des entrées du pipeline ou elles peuvent dépendre de la sortie d'autres étapes dans ce pipeline. Ces dépendances définissent le workflow du pipeline en tant que graphe orienté acyclique.
Présentation du pipeline et des composants
Le diagramme suivant illustre le pipeline de modélisation du workflow tabulaire pour AutoML de bout en bout :
Les composants du pipeline sont les suivants :
feature-transform-engine : effectue extraction de caractéristiques. Pour en savoir plus, consultez la page Feature Transform Engine.
split-materialized-data : divise les données matérialisées en un ensemble d'entraînement, un ensemble d'évaluation et un ensemble de test.
Ensemble de test matérialisé (materialized_test_split).
merge-materialized-splits : fusionne la division d'évaluation matérialisée et la division d'entraînement matérialisée.
automl-tabular-stage-1-tuner : effectue une recherche de l'architecture du modèle et ajuste les hyperparamètres.
Une architecture est définie par un ensemble d'hyperparamètres.
Les hyperparamètres incluent le type de modèle et les paramètres du modèle.
Les types de modèles pris en compte sont les réseaux de neurones et les arbres de décision à boosting.
Le système entraîne un modèle pour chaque architecture prise en compte.
automl-tabular-cv-trainer : effectue une validation croisée des architectures en entraînant les modèles sur les différents sous-ensembles des données d'entrée.
Les architectures considérées sont celles qui ont donné les meilleurs résultats à l'étape précédente.
Le système sélectionne environ les dix meilleures architectures. Le nombre précis est défini par le budget d'entraînement.
automl-tabular-ensemble : assemble les meilleures architectures pour produire un modèle final.
Le diagramme suivant illustre la validation croisée à k blocs avec bagging :
condition-is-distill - Facultatif : crée une version plus petite du modèle d'ensemble.
Un modèle plus petit réduit la latence et les coûts liés à l'inférence.
automl-tabular-infra-validator : vérifie si le modèle entraîné est un modèle valide.
model-upload : importe le modèle.
condition-is-evaluation - Facultatif : utilise l'ensemble de test pour calculer les métriques d'évaluation.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/02 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/02 (UTC)."],[],[],null,["# Tabular Workflow for End-to-End AutoML\n\nThis document provides an overview of the End-to-End AutoML\n[pipeline and components](#components). To learn how to train a model with End-to-End AutoML,\nsee [Train a model with End-to-End AutoML](/vertex-ai/docs/tabular-data/tabular-workflows/e2e-automl-train).\n\n\nTabular Workflow for End-to-End AutoML is a complete AutoML\npipeline for classification and regression tasks. It is similar to the\n[AutoML API](/vertex-ai/docs/tabular-data/classification-regression/overview),\nbut allows you to choose what to control and what to automate. Instead of having\ncontrols for the *whole* pipeline, you have controls for *every step* in the\npipeline. These pipeline controls include:\n\n- Data splitting\n- Feature engineering\n- Architecture search\n- Model training\n- Model ensembling\n- Model distillation\n\n\u003cbr /\u003e\n\nBenefits\n--------\n\nThe following lists some of the benefits of\nTabular Workflow for End-to-End AutoML\n:\n\n\n- Supports **large datasets** that are multiple TB in size and have up to 1000 columns.\n- Allows you to **improve stability and lower training time** by limiting the search space of architecture types or skipping architecture search.\n- Allows you to **improve training speed** by manually selecting the hardware used for training and architecture search.\n- Allows you to **reduce model size and improve latency** with distillation or by changing the ensemble size.\n- Each AutoML component can be inspected in a powerful pipelines graph interface that lets you see the transformed data tables, evaluated model architectures, and many more details.\n- Each AutoML component gets extended flexibility and transparency, such as being able to customize parameters, hardware, view process status, logs, and more.\n\n\u003cbr /\u003e\n\nEnd-to-End AutoML on Vertex AI Pipelines\n----------------------------------------\n\n\nTabular Workflow for End-to-End AutoML\nis a managed instance of Vertex AI Pipelines.\n\n\n[Vertex AI Pipelines](/vertex-ai/docs/pipelines/introduction) is a serverless\nservice that runs Kubeflow pipelines. You can use pipelines to automate\nand monitor your machine learning and data preparation tasks. Each step in a\npipeline performs part of the pipeline's workflow. For example,\na pipeline can include steps to split data, transform data types, and train a model. Since steps\nare instances of pipeline components, steps have inputs, outputs, and a\ncontainer image. Step inputs can be set from the pipeline's inputs or they can\ndepend on the output of other steps within this pipeline. These dependencies\ndefine the pipeline's workflow as a directed acyclic graph.\n\nOverview of pipeline and components\n-----------------------------------\n\nThe following diagram shows the modeling pipeline for\nTabular Workflow for End-to-End AutoML\n:\n\n\u003cbr /\u003e\n\nThe pipeline components are:\n\n1. **feature-transform-engine** : Performs feature engineering. See [Feature Transform Engine](/vertex-ai/docs/tabular-data/tabular-workflows/feature-engineering) for details.\n2. **split-materialized-data** : Split the materialized data into a training set, an evaluation set, and a test set.\n\n \u003cbr /\u003e\n\n Input:\n - Materialized data `materialized_data`.\n\n Output:\n - Materialized training split `materialized_train_split`.\n - Materialized evaluation split `materialized_eval_split`.\n - Materialized test set `materialized_test_split`.\n3. **merge-materialized-splits** - Merges the materialized evaluation split and the materialized train split.\n4. **automl-tabular-stage-1-tuner** - Performs model architecture search and tunes hyperparameters.\n\n - An architecture is defined by a set of hyperparameters.\n - Hyperparameters include the model type and the model parameters.\n - Model types considered are neural networks and boosted trees.\n - The system trains a model for each architecture considered.\n5. **automl-tabular-cv-trainer** - Cross-validates architectures by training models on different folds of the input data.\n\n - The architectures considered are those that give the best results in the previous step.\n - The system selects approximately ten best architectures. The precise number is defined by the training budget.\n6. **automl-tabular-ensemble** - Ensembles the best architectures to produce a final model.\n\n - The following diagram illustrates K-fold cross-validation with bagging:\n\n \u003cbr /\u003e\n\n7. **condition-is-distill** - **Optional**. Creates a smaller version of the ensemble model.\n\n - A smaller model reduces latency and cost for inference.\n8. **automl-tabular-infra-validator** - Validates whether the trained model is a valid model.\n\n9. **model-upload** - Uploads the model.\n\n10. **condition-is-evaluation** - **Optional**. Uses the test set to calculate evaluation metrics.\n\nWhat's next\n-----------\n\n- [Train a model using End-to-End\n AutoML](/vertex-ai/docs/tabular-data/tabular-workflows/e2e-automl-train)."]]