Gobernanza de datos con Amazon DataZone - Descubrimiento, compartición y control de acceso a datos

Presentamos cómo construir un catálogo de datos basado en dominios y lograr el descubrimiento, compartición y control de acceso a datos mediante flujos de trabajo de suscripción.

Descripción general de DataZone

DataZone es un servicio que integra el descubrimiento, la compartición y la gobernanza de datos dentro de una organización, capaz de gestionar miles de activos de datos y cientos de usuarios. Los productores de datos publican activos de datos en el catálogo, y los consumidores de datos buscan los datos necesarios en el catálogo y solicitan una suscripción. Tras la aprobación, los consumidores pueden acceder directamente a los datos desde Athena o Redshift. DataZone proporciona una interfaz de portal que permite incluso a usuarios de negocio no técnicos buscar y explorar activos de datos desde un navegador. Su objetivo principal es visualizar el panorama completo de los activos de datos de una organización y habilitar la utilización transversal de datos aislados.

Dominios y suscripciones

Los dominios son grupos lógicos que corresponden a unidades de negocio o equipos, y clarifican la propiedad y responsabilidad de gestión de los datos. Cada dominio puede tener un propietario de datos designado con autoridad delegada para la publicación de activos y aprobación de suscripciones dentro de ese dominio. Los proyectos son la unidad de trabajo dentro de un dominio donde los usuarios consumen datos, gestionando conexiones a entornos analíticos (Athena/Redshift). En el flujo de trabajo de suscripción, los consumidores solicitan acceso a un activo de datos y el productor o administrador lo aprueba. Tras la aprobación, los permisos de Lake Formation se otorgan automáticamente y los consumidores pueden ejecutar consultas desde Athena. Se pueden configurar reglas de aprobación automática para aprobar instantáneamente solicitudes que cumplan ciertas condiciones (como estar dentro del mismo dominio) sin intervención manual. Las suscripciones pueden tener fechas de expiración, tras las cuales los derechos de acceso se revocan automáticamente, previniendo la compartición innecesaria de datos a largo plazo.

Calidad de datos y gestión del catálogo

Las reglas de calidad de datos de DataZone verifican automáticamente la calidad de los activos de datos publicados. Se definen reglas de completitud (porcentaje de valores NULL), unicidad (registros duplicados) y frescura (fecha de última actualización), y se muestra la puntuación de calidad en el catálogo. El glosario de términos de negocio gestiona definiciones de términos comunes de la organización, y al etiquetar los activos de datos, permite buscar datos no solo por nombres técnicos de tablas sino también por su significado empresarial. Los formularios de metadatos definen atributos personalizados como propietario de datos, frecuencia de actualización y nivel de confidencialidad, adjuntando la información necesaria para la gobernanza a los activos de datos. La integración con el catálogo de datos de Glue permite importar automáticamente las definiciones de tablas existentes a DataZone. Las tablas de Redshift también pueden registrarse en el catálogo. La función de búsqueda soporta consultas en lenguaje natural, permitiendo a los usuarios descubrir activos objetivo con búsquedas vagas como "datos relacionados con ventas" sin conocer nombres exactos de tablas. Para aprender exhaustivamente los patrones de diseño de DataZone, consulte los libros técnicos (Amazon).

Precios de DataZone

Los precios de DataZone se componen del número de activos de datos registrados en el catálogo y las llamadas a la API de metadatos. Cada activo de datos cuesta aproximadamente 0.10 dólares mensuales, y la API de metadatos cuesta aproximadamente 4.25 dólares por millón de solicitudes. La aprobación y gestión de suscripciones se puede utilizar sin cargos adicionales. En organizaciones grandes, el número de activos de datos puede alcanzar miles, por lo que se gestionan los costos mediante la revisión periódica de activos innecesarios. La integración con el catálogo de datos de Glue permite aprovechar los metadatos existentes y reducir los costos operativos evitando la gestión duplicada de catálogos.

Integración con Lake Formation y Glue - Patrones de diseño

DataZone se integra profundamente con Lake Formation. La concesión de permisos durante la aprobación de suscripciones se implementa mediante los controles de acceso a nivel de tabla y columna de Lake Formation. Esto permite la seguridad a nivel de columna donde diferentes consumidores ven diferentes columnas mientras referencian los mismos datos en S3. DataZone se sincroniza bidireccionalmente con el catálogo de datos de Glue - cuando se detectan nuevas tablas en Glue, se reflejan automáticamente en el catálogo de DataZone. Para configuraciones multi-cuenta, se recomienda un patrón Hub-Spoke donde el dominio de DataZone se coloca en una cuenta de gobernanza central y los catálogos de Glue de cuentas de carga de trabajo se federan. Esta configuración centraliza la gestión de políticas de gobernanza mientras mantiene los datos físicamente distribuidos entre cuentas. La configuración de entornos (Environment) vincula workgroups de Athena o clústeres de Redshift, aprovisionando automáticamente un estado listo para consultas para los consumidores inmediatamente después de la aprobación.

Errores comunes en la implementación y mejores prácticas operativas

Existen patrones de fallo comunes al implementar DataZone. Si el diseño de dominios es demasiado grueso (por ejemplo, un solo dominio para toda la empresa), los flujos de aprobación se centralizan y se convierten en cuellos de botella; si es demasiado granular (por ejemplo, un dominio por tabla), la gestión se vuelve engorrosa. Los dominios con alcance de unidades de negocio o líneas de producto proporcionan un equilibrio práctico. Comenzar operaciones sin preparar un glosario de negocio resulta en baja precisión de búsqueda del catálogo, impidiendo que los usuarios encuentren los datos objetivo. Se recomienda preparar 50-100 definiciones de términos para los principales dominios de datos antes del despliegue de DataZone. Establecer reglas de calidad de datos demasiado estrictas desde el inicio impide la publicación de tablas existentes con puntuaciones de calidad bajas, bloqueando la adopción práctica. Un enfoque realista es comenzar con umbrales relajados y mejorar la calidad en paralelo. Para prevenir la obsolescencia del catálogo, asigne responsabilidad de inventario trimestral a los propietarios de datos con reglas operativas para despublicar activos no utilizados.

Resumen

DataZone es un servicio que integra el descubrimiento, la compartición y la gobernanza de datos, maximizando el valor de los datos en toda la organización. La gestión de propiedad basada en dominios clarifica la responsabilidad de los datos, y los flujos de trabajo de suscripción permiten la compartición de datos basada en aprobaciones. La integración con Lake Formation proporciona seguridad a nivel de columna y soporte multi-cuenta para requisitos de gobernanza a escala empresarial. Las reglas de calidad de datos y el glosario de términos de negocio mejoran la fiabilidad y la capacidad de búsqueda del catálogo.