Amazon DataZone

Portal empresarial de datos que integra catálogo de datos, gobernanza de acceso y uso compartido de datos en autoservicio mediante gestión basada en dominios

Descripción general

Amazon DataZone es un servicio de gestión de datos para descubrir, compartir y gobernar los activos de datos dentro de una organización. Proporciona un portal utilizable tanto por usuarios de negocio como por ingenieros de datos, permitiendo completar en autoservicio la búsqueda de datos, solicitudes de acceso y flujos de aprobación. Además de fuentes de datos de AWS como S3, Redshift, Glue Data Catalog y RDS, también integra fuentes de datos de terceros, catalogando de forma centralizada todos los activos de datos de la organización. Mediante la integración con Lake Formation, aplica automáticamente controles de acceso granulares a nivel de tabla y columna.

Gobernanza de datos mediante dominios y proyectos

La estructura de gobernanza de DataZone se diseña en tres niveles jerárquicos: Dominio, Proyecto y Entorno. El Dominio es el límite superior de gobernanza de datos de la organización, y normalmente se crea por empresa o unidad de negocio. Dentro del dominio se almacenan el catálogo de datos de negocio, el glosario de negocio y los formularios de metadatos, que constituyen la base para la clasificación y contextualización de los activos de datos. Los Proyectos se crean por equipos de productores y consumidores de datos, gestionando la membresía y el control de acceso basado en roles. Los Entornos son conjuntos de recursos técnicos vinculados a un proyecto, donde se definen las conexiones a clústeres de Redshift, grupos de trabajo de Athena, bases de datos de Glue, entre otros. Los propietarios de datos publican activos dentro de un proyecto, y los miembros de otros proyectos obtienen acceso mediante solicitudes de suscripción. Los flujos de aprobación son personalizables, permitiendo configurar etapas de aprobación automática, aprobación del propietario de datos o aprobación del administrador.

Publicación de activos de datos y suscripciones

Para compartir datos en DataZone, primero se registra una fuente de datos y se recopilan metadatos automáticamente. Al conectar tablas de Glue Data Catalog, esquemas de Redshift o conjuntos de datos de S3 como fuentes de datos, los nombres de tablas, definiciones de columnas, tipos de datos e información estadística se incorporan automáticamente al catálogo. Los propietarios de datos agregan metadatos de negocio (descripciones, etiquetas, términos de negocio, reglas de calidad de datos) a los activos catalogados y los hacen buscables desde otros proyectos del dominio mediante la operación de publicación. Los consumidores de datos descubren activos desde la pantalla de búsqueda del portal y envían solicitudes de suscripción. Una vez aprobada la solicitud, los permisos de Lake Formation se otorgan automáticamente, y los consumidores pueden ejecutar consultas directamente sobre los datos desde su entorno de proyecto (Athena o Redshift). Este flujo reduce significativamente la carga operativa de configurar manualmente políticas IAM o permisos de Lake Formation.

Catálogo de datos de negocio y experiencia de búsqueda

El catálogo de datos de negocio de DataZone es un inventario de activos de datos buscable que integra metadatos técnicos y contexto de negocio. El catálogo cuenta con funcionalidad de búsqueda en lenguaje natural, donde al buscar con términos de negocio como "datos de ventas mensuales" o "segmentos de clientes", se muestran las tablas y conjuntos de datos relacionados. La función de glosario de negocio permite registrar terminología específica de la organización (definiciones de KPI, métodos de cálculo de métricas, criterios de clasificación de datos) y vincularla a los activos de datos, unificando el significado y contexto de los datos en toda la organización. Los formularios de metadatos son un mecanismo para definir campos personalizados, asignando atributos como frescura de datos, frecuencia de actualización, propietario de datos y nivel de confidencialidad a los activos. Mediante la integración con reglas de calidad de datos, la puntuación de calidad de cada activo se muestra en el catálogo, permitiendo a los consumidores evaluar la confiabilidad de los datos de antemano. Desde el registro de actividad del catálogo se puede analizar qué activos de datos se utilizan con frecuencia y qué proyectos consumen datos, lo que también es útil para la evaluación del valor de los activos de datos.

共有するXB!