Flusso di lavoro tabulare per la previsione

Questo documento fornisce una panoramica della pipeline e dei componenti del workflow tabulare per la previsione. Per scoprire come addestrare un modello, consulta l'articolo Addestrare un modello con il flusso di lavoro tabulare per la previsione .

Il flusso di lavoro tabulare per la previsione è la pipeline completa per le attività di previsione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Anziché avere controlli per l'intera pipeline, hai controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:

  • Suddivisione dei dati
  • Feature engineering
  • Ricerca dell'architettura
  • Addestramento del modello
  • Combinazione di modelli

Vantaggi

Di seguito sono riportati alcuni vantaggi del flusso di lavoro tabulare per la previsione:

  • Supporta set di dati di grandi dimensioni fino a 1 TB e con un massimo di 200 colonne.
  • Ti consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
  • Consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
  • Consente di ridurre le dimensioni del modello e migliorare la latenza modificando le dimensioni dell'ensemble.
  • Ogni componente può essere esaminato in una potente interfaccia grafica delle pipeline che consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
  • Ogni componente offre maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri e hardware, visualizzare lo stato del processo, i log e altro ancora.

Previsione su Vertex AI Pipelines

Tabular Workflow for Forecasting è un'istanza gestita di Vertex AI Pipelines.

Vertex AI Pipelines è un servizio serverless che esegue pipeline Kubeflow. Puoi utilizzare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue una parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per dividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze di componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o possono dipendere dall'output di altri passaggi all'interno di questa pipeline. Queste dipendenze definiscono il flusso di lavoro della pipeline come un grafo diretto aciclico.

Panoramica della pipeline e dei componenti

Il seguente diagramma mostra la pipeline di modellazione per il flusso di lavoro tabulare per la previsione:

Pipeline per la previsione 

I componenti della pipeline sono:

  1. feature-transform-engine: esegue il feature engineering. Per maggiori dettagli, vedi Feature Transform Engine.
  2. training-configurator-and-validator: convalida la configurazione dell'addestramento e genera i metadati di addestramento.

    Input:

    • instance_schema: schema dell'istanza nella specifica OpenAPI, che descrive i tipi di dati dei dati di inferenza.
    • dataset_stats: statistiche che descrivono il set di dati non elaborato. Ad esempio, dataset_stats indica il numero di righe nel set di dati.
    • training_schema: Schema dei dati di addestramento nella specifica OpenAPI, che descrive i tipi di dati dei dati di addestramento.
  3. split-materialized-data: suddivide i dati materializzati in un set di addestramento, un set di valutazione e un set di test.

    Input:

    • materialized_data: Dati materializzati.

    Output:

    • materialized_train_split: suddivisione materializzata dell'addestramento.
    • materialized_eval_split: Suddivisione della valutazione materializzata.
    • materialized_test_split: Set di test materializzato.
  4. calculate-training-parameters-2: calcola la durata prevista del runtime per automl-forecasting-stage-1-tuner.

  5. get-hyperparameter-tuning-results - Facoltativo: se configuri la pipeline in modo da ignorare la ricerca dell'architettura, carica i risultati dell'ottimizzazione degli iperparametri da un'esecuzione precedente della pipeline.

  6. Esegui la ricerca dell'architettura del modello e ottimizza gli iperparametri (automl-forecasting-stage-1-tuner) o utilizza i risultati dell'ottimizzazione degli iperparametri di un'esecuzione della pipeline precedente (automl-forecasting-stage-2-tuner).

    • Un'architettura è definita da un insieme di iperparametri.
    • Gli iperparametri includono il tipo di modello e i parametri del modello.
    • I tipi di modelli presi in considerazione sono le reti neurali e gli alberi potenziati.
    • Viene addestrato un modello per ogni architettura considerata.

    Input:

    • materialized_train_split: suddivisione materializzata dell'addestramento.
    • materialized_eval_split: Suddivisione della valutazione materializzata.
    • artifact - Risultati dell'ottimizzazione degli iperparametri di un'esecuzione della pipeline precedente. Questo artefatto è un input solo se configuri la pipeline in modo da ignorare la ricerca dell'architettura.

    Output:

    • tuning_result_output: Output dell'ottimizzazione.
  7. get-prediction-image-uri-2: genera l'URI dell'immagine di inferenza corretta in base al tipo di modello.

  8. automl-forecasting-ensemble-2: combina le migliori architetture per produrre un modello finale.

    Input:

    • tuning_result_output: Output dell'ottimizzazione.

    Output:

    • unmanaged_container_model: modello di output.
  9. model-upload-2: carica il modello.

    Input:

    • unmanaged_container_model: modello di output.

    Output:

    • model: Modello Vertex AI.
  10. should_run_model_evaluation - Facoltativo: utilizza il set di test per calcolare le metriche di valutazione.

Passaggi successivi