Préparer des données textuelles d'entraînement pour l'analyse des sentiments

À partir du 15 septembre 2024, vous ne pourrez personnaliser les objectifs de classification, d'extraction d'entités et d'analyse des sentiments qu'en passant aux requêtes et à l'ajustement Vertex AI Gemini. L'entraînement ou la mise à jour des modèles pour les objectifs de classification de texte, d'extraction d'entités et d'analyse des sentiments de Vertex AI AutoML ne seront plus disponibles. Vous pouvez continuer à utiliser les modèles Vertex AI AutoML Text existants jusqu'au 15 juin 2025. Pour obtenir une comparaison du texte AutoML et Gemini, consultez la page Gemini pour les utilisateurs de texte AutoML. Pour en savoir plus sur la façon dont Gemini offre une expérience utilisateur améliorée grâce à des fonctionnalités de requêtes améliorées, consultez Présentation du réglage. Pour commencer à utiliser le réglage, consultez la page Réglage des modèles pour les modèles textuels Gemini

Cette page explique comment préparer des données textuelles à utiliser dans un ensemble de données Vertex AI pour entraîner un modèle d'analyse des sentiments.

Les données d'entraînement pour l'analyse des sentiments se composent de documents associés à une valeur de sentiment indiquant le sentiment du contenu. Par exemple, vous pouvez disposer de tweets sur un domaine particulier comme le voyage par avion. Chaque tweet est associé à une valeur de sentiment qui indique si le tweet est positif, négatif ou neutre.

Exigences en matière de données

Vous devez fournir au minimum 10 ou au maximum 100 000 documents d'entraînement au total.
Une valeur de sentiment doit être un entier compris entre 0 et 10. La valeur de sentiment maximale est votre choix. Par exemple, si vous souhaitez déterminer si le sentiment est négatif, positif ou neutre, vous pouvez attribuer aux données d'entraînement des étiquettes représentant des scores de sentiment de 0 (négatif), 1 (neutre) ou 2 (positif). Le score de sentiment maximal pour cet ensemble de données est 2. Si vous souhaitez capturer davantage de précision, par exemple avec cinq niveaux de sentiment, vous pouvez étiqueter les documents de 0 (sentiment le plus négatif) à 4 (sentiment le plus positif).
Vous devez appliquer chaque valeur de sentiment à un minimum de 10 documents.
Les valeurs de score de sentiment doivent être des nombres entiers consécutifs à partir de zéro. Si vous constatez des écarts dans les scores ou s'ils ne commencent pas à partir de zéro, vous devez remapper vos scores pour obtenir des entiers consécutifs à partir de zéro.
Vous pouvez intégrer directement les documents ou faire référence à des fichiers TXT situés dans des buckets Cloud Storage.

Bonnes pratiques pour les données textuelles utilisées afin d'entraîner des modèles AutoML

Les recommandations suivantes s'appliquent aux ensembles de données utilisés pour entraîner les modèles AutoML.

Fournissez au moins 100 documents par valeur de sentiment.
Utilisez un nombre équilibré de documents pour chaque score de sentiment. Le fait d'avoir plus d'exemples pour certains scores de sentiment peut introduire un biais dans le modèle.

Fichiers d'entrée

Les types de fichiers d'entrée pour l'analyse des sentiments peuvent être des fichiers JSON Lines ou des fichiers CSV.

JSON Lines

Le format, les noms de champ et les types de valeurs pour les fichiers JSON Lines sont déterminés par un fichier de schéma qui est un fichier YAML publiquement accessible.

Vous pouvez télécharger le fichier de schéma pour l'analyse des sentiments à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml

Exemple JSON Lines

L'exemple suivant montre comment utiliser le schéma pour créer votre propre fichier JSON Lines. L'exemple inclut des sauts de ligne pour des raisons de lisibilité. Dans vos fichiers JSON Lines, n'incluez des sauts de ligne qu'après chaque document. Le champ facultatif dataItemResourceLabels peut par exemple spécifier ml_use.

{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

CSV

Chaque ligne d'un fichier CSV fait référence à un seul document. L'exemple suivant montre le format général d'un fichier CSV valide. La colonne ml_use est facultative.

  [ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax

L'extrait suivant est un exemple de fichier CSV d'entrée.

  test,gs://path_to_file,sentiment_value,sentiment_max_value
  test,"inline_text",sentiment_value,sentiment_max_value
  training,gs://path_to_file,sentiment_value,sentiment_max_value
  validation,gs://path_to_file,sentiment_value,sentiment_max_value

Créer un ensemble de données

Préparer des données textuelles d'entraînement pour l'analyse des sentiments Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Exigences en matière de données

Bonnes pratiques pour les données textuelles utilisées afin d'entraîner des modèles AutoML

Fichiers d'entrée

JSON Lines

CSV

Préparer des données textuelles d'entraînement pour l'analyse des sentiments