Amazon DataZone のアイコン

Amazon DataZone Nuevo servicio2023年〜

Un servicio de gestión de datos que integra descubrimiento, compartición y gobernanza de datos

Qué hace

Amazon DataZone es un servicio de gestión de datos que permite a las organizaciones catalogar, descubrir, compartir y gobernar datos a través de límites organizacionales. Proporciona un portal de datos donde los usuarios de negocio pueden buscar y solicitar acceso a datasets, mientras que los propietarios de datos mantienen el control sobre quién accede a qué. Integra catálogo de datos, control de acceso y flujos de trabajo de aprobación.

Casos de uso

Se utiliza para crear un catálogo de datos organizacional centralizado, permitir el descubrimiento self-service de datos por equipos de negocio, implementar gobernanza de datos con flujos de aprobación, compartir datos de forma segura entre departamentos o unidades de negocio, y cumplir con políticas de acceso a datos y regulaciones.

Analogía cotidiana

Piensa en él como una biblioteca corporativa de datos. Así como una biblioteca tiene un catálogo donde buscas libros, un bibliotecario que controla los préstamos y reglas sobre quién puede acceder a qué sección, DataZone proporciona un catálogo de datos, controles de acceso y flujos de aprobación para que los datos correctos lleguen a las personas correctas.

¿Qué es Amazon DataZone?

Amazon DataZone es un servicio de gobernanza y gestión de datos que ayuda a las organizaciones a hacer que sus datos sean descubribles, compartibles y gobernados. En organizaciones grandes, los datos están dispersos en múltiples cuentas, servicios y equipos. DataZone proporciona un lugar central donde los datos se catalogan y los usuarios pueden encontrar y solicitar acceso a los datos que necesitan.

Portal de datos y catálogo

DataZone proporciona un portal web donde los usuarios de negocio pueden buscar datos disponibles, ver descripciones y metadatos, previsualizar muestras y solicitar acceso. Los propietarios de datos publican sus datasets en el catálogo con descripciones, esquemas y clasificaciones. El catálogo se integra con AWS Glue Data Catalog para descubrimiento automático.

Gobernanza y control de acceso

DataZone implementa gobernanza de datos mediante proyectos, dominios y flujos de aprobación. Los propietarios de datos definen políticas de acceso y aprueban o rechazan solicitudes. Los suscriptores reciben acceso temporal y controlado a los datos. Todo el acceso se audita y se puede revocar. Para más información sobre gobernanza de datos, los libros en Amazon son un buen recurso.

Cómo empezar

Crea un dominio de DataZone en la consola. Configura un proyecto y añade fuentes de datos (Glue Data Catalog, Redshift, etc.). Publica datasets en el catálogo con descripciones y clasificaciones. Invita a usuarios al portal de datos y configura flujos de aprobación. Los usuarios pueden comenzar a buscar y solicitar acceso a datos.

Aspectos a tener en cuenta

  • DataZone はデータの保存場所を変更せず、メタデータとアクセス権限を管理するサービスである点に注意。データ自体は S3 や Redshift に残る
  • Lake Formation との連携が前提となるケースが多いため、Lake Formation の基本設定を先に済ませておくとスムーズ
  • ドメインやプロジェクトの設計は組織構造に合わせて慎重に行うこと。後からの変更は影響範囲が大きい
共有するXB!