Descripción general del Catálogo universal de Dataplex

Dataplex Universal Catalog es una solución de administración inteligente y unificada para los recursos de datos y de IA en Google Cloud. Con Dataplex Universal Catalog, puedes usar la IA para simplificar las consultas de datos, el control de calidad y las estadísticas empresariales.

Dataplex Universal Catalog realiza la administración a gran escala. Por ejemplo, considera una empresa minorista global que genera grandes cantidades de datos de ventas, inventario y clientes que se almacenan en Cloud Storage, Spanner y Pub/Sub. Con los datos distribuidos en varios sistemas, puede ser complejo y llevar mucho tiempo administrar la administración, garantizar la calidad y mantener el cumplimiento. Dataplex Universal Catalog simplifica este proceso, ya que proporciona una vista central para descubrir, generar perfiles, validar, hacer un seguimiento del linaje y controlar el acceso a los recursos de datos de la organización.

¿Por qué usar Dataplex Universal Catalog?

Dataplex Universal Catalog administra los datos a través de las siguientes funciones:

  • Categorización de metadatos. Recupera metadatos para los recursos Google Cloud (en BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform y Dataproc Metastore) y los recursos de terceros que incorporas a Dataplex Universal Catalog para obtener una instantánea de tus recursos de datos.
  • Descubrimiento de datos. Analiza los datos estructurados y no estructurados en los buckets de Cloud Storage para extraer y catalogar sus metadatos.
  • Estadísticas de datos. Usar la IA para generar preguntas en lenguaje natural sobre tus datos, descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos
  • Creación de perfiles de datos. Identificar características comunes de los datos de las columnas en tus tablas de BigQuery, por ejemplo, valores de datos típicos, distribución de datos y recuentos de nulos, que pueden informar la clasificación de datos y el control de calidad
  • Calidad de los datos. Define y mide la calidad de los datos en tus tablas de BigQuery validando los datos según las políticas de la organización y registrando alertas si los datos no cumplen con los criterios de calidad.
  • Glosario empresarial. Administra la terminología y las definiciones relacionadas con la empresa en toda tu organización, y adjunta términos a las columnas de la tabla para promover una comprensión coherente del uso de los datos.
  • Linaje de datos. Hacer un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos

Dataplex Universal Catalog admite un ciclo de vida de los datos de extremo a extremo, desde el descubrimiento distribuido hasta las estadísticas empresariales. Las funciones de administración también están disponibles a través de BigQuery.

Casos de uso

Puedes usar Dataplex Universal Catalog para realizar las siguientes acciones:

  • Descubre y comprende tus datos. Dataplex Universal Catalog proporciona visibilidad sobre tus recursos de datos en toda la organización. Te permite encontrar recursos relevantes para las necesidades de consumo de datos. Proporciona contexto para los recursos de datos, lo que te ayuda a comprender la idoneidad de los recursos de datos para las necesidades de tu consumidor de datos.

  • Habilita la administración y el control de datos. Dataplex Universal Catalog proporciona metadatos que pueden informar y potenciar tus capacidades de administración y control de datos.

  • Mantén un repositorio extensible y completo para tus metadatos. Dataplex Universal Catalog almacena y proporciona acceso a los metadatos que se recopilan automáticamente de tus recursos de Google Cloud . Puedes integrar tus propios metadatos desde sistemas que no sean deGoogle Cloud . Puedes enriquecer todos los metadatos con anotaciones adicionales de metadatos técnicos y comerciales.

Comenzar

Si es la primera vez que trabajas con Dataplex Universal Catalog, considera seguir una guía de inicio rápido:

¿Qué sigue?