Amazon DataZone
基于域统一管理数据目录、访问治理和自助数据共享的企业数据门户
概述
Amazon DataZone 是一项用于发现、共享和治理组织内数据资产的数据管理服务。提供业务用户和数据工程师均可使用的门户,以自助方式完成数据搜索、访问申请和审批工作流。除 S3、Redshift、Glue Data Catalog、RDS 等 AWS 数据源外,还可集成第三方数据源,统一编目组织全部数据资产。通过与 Lake Formation 联动,自动应用表级和列级的精细访问控制。
通过域和项目实现数据治理
DataZone 的治理结构由域、项目和环境三层设计。域是组织数据治理的最高边界,通常按企业整体或事业部创建。域内存放业务数据目录、术语表和元数据表单,作为数据资产分类和语义化的基础。项目按数据生产者和消费者的团队创建,管理成员资格和基于角色的访问控制。环境是绑定到项目的技术资源集合,定义 Redshift 集群、Athena 工作组和 Glue 数据库等连接目标。数据所有者在项目内发布数据资产,其他项目成员通过订阅申请获取访问权限。审批工作流可自定义,可设置自动审批、数据所有者审批和管理员审批等阶段。
数据资产发布与订阅
在 DataZone 中共享数据,首先注册数据源并自动收集元数据。将 Glue Data Catalog 表、Redshift Schema 或 S3 数据集作为数据源连接后,表名、列定义、数据类型和统计信息会自动导入目录。数据所有者为导入的资产添加业务元数据(描述、标签、业务术语、数据质量规则),通过发布操作使其可被域内其他项目搜索。数据消费者在门户搜索界面发现资产并提交订阅申请。申请获批后,Lake Formation 访问权限自动授予,消费者可在自己的项目环境中直接查询数据。这一流程大幅减轻了数据工程师手动设置 IAM 策略和 Lake Formation 权限的运维负担。
业务数据目录与搜索体验
DataZone 的业务数据目录是整合技术元数据和业务上下文的可搜索数据资产清单。目录具备自然语言搜索功能,业务用户用月度销售数据、客户细分等业务术语搜索时,会显示相关表和数据集。业务词汇表功能可注册组织特有术语(KPI 定义、指标计算方法、数据分类标准等)并关联到数据资产,在整个组织统一数据的含义和上下文。元数据表单是定义自定义字段的机制,可为资产添加数据新鲜度、更新频率、数据所有者和机密级别等属性。与数据质量规则联动后,各资产的质量分数显示在目录上,消费者可事先评估数据可靠性。通过目录活动日志可分析哪些数据资产被频繁使用,也可用于数据资产价值评估。