Amazon DataZone 新服务2023年〜
集成数据发现、共享和治理的数据管理服务
它能做什么
Amazon DataZone 是一项数据管理服务,帮助组织内的数据生产者和消费者发现、共享和治理数据。提供数据目录、业务术语表、数据质量规则和访问控制功能。数据消费者可以通过自助式门户搜索和请求访问数据,数据所有者可以设置审批流程和使用策略。
使用场景
用于构建企业数据目录使数据资产可被发现、实现跨部门的安全数据共享、建立数据治理框架和访问审批流程、管理数据质量标准、创建业务术语表统一数据定义等。
日常类比
可以将其比作公司的图书馆管理系统。图书馆(DataZone)将所有书籍(数据)编目,读者(数据消费者)可以搜索和借阅。图书管理员(数据所有者)决定谁可以借哪些书,并确保书籍的质量。业务术语表就像图书分类标准,确保所有人对同一概念有相同理解。
什么是 DataZone
Amazon DataZone 是一项帮助组织管理和共享数据资产的服务。随着数据量增长,“数据在哪里”“谁拥有这些数据”“我能否使用这些数据”等问题变得越来越难回答。DataZone 通过数据目录、访问管理和治理功能解决这些问题。
数据目录与发现
DataZone 自动从 Glue Data Catalog、Redshift、S3 等数据源收集元数据,构建可搜索的数据目录。数据资产附带业务描述、所有者信息、数据质量指标等丰富的元数据。数据消费者可以通过关键词搜索或浏览分类来发现所需数据。
访问管理与治理
DataZone 提供基于项目的访问管理。数据消费者通过门户请求访问数据,数据所有者审批后自动授予权限。所有访问请求和审批都有审计记录。还可以定义数据使用策略,如“此数据仅可用于分析目的,不可用于 ML 训练”。 关于数据治理的方法,也可以参考相关书籍(Amazon)。
开始使用
在 DataZone 控制台中创建域(Domain),这是组织的顶级容器。创建项目并邀请成员。连接数据源(Glue、Redshift 等)让 DataZone 自动发现数据资产。配置业务术语表和数据质量规则。数据消费者通过 DataZone 门户搜索和请求访问数据。
注意事项
- DataZone 按活跃用户数和元数据存储量计费,请根据组织规模估算成本
- 与 Lake Formation 的权限模型集成,已有 Lake Formation 设置的组织可以平滑引入
- DataZone 门户支持自定义品牌,可以融入企业内部工具的外观