AWS Clean Rooms
多个组织无需公开彼此原始数据即可进行联合分析的服务,实现隐私保护与数据分析的兼顾
概述
AWS Clean Rooms 是一项允许多个企业或组织在不直接共享各自数据集的情况下联合执行数据分析的服务。通过创建称为协作的分析环境,各参与者为自己的数据定义分析规则 (哪些列作为连接键、最小聚合粒度等),从而在防止原始数据泄露的同时获取洞察。还提供差分隐私和加密计算等高级隐私控制。
数据洁净室解决的隐私与分析困境
广告效果衡量、医学研究、金融风险分析等场景中,只有将多个组织的数据进行交叉比对才能获得的洞察有很多。然而,随着个人信息保护法和 GDPR 监管的加强,直接共享原始数据的风险越来越高。Clean Rooms 通过"预定义分析规则"解决了这一困境。数据提供者为自己的表设置分析约束 (Analysis Rule),如"允许连接但禁止输出单条记录""聚合结果仅返回 100 条以上的分组"。分析执行者只能在这些约束范围内执行 SQL 查询,违反约束的查询会被服务端自动阻止。数据始终保留在各参与者的 AWS 账户中进行分析,不会发生数据的复制或迁移。这种设计使得跨组织分析更容易获得法务部门的批准。
协作设计与分析规则的实务配置
Clean Rooms 的协作由参与者 (成员)、已配置表 (Configured Table) 和分析规则三个要素组成。成员分为数据提供者和分析执行者角色,一个组织也可以同时担任两种角色。已配置表引用 Glue Data Catalog 的表,定义公开哪些列、哪些列可用作连接键。分析规则有聚合 (Aggregation) 和列表 (List) 两种类型,聚合规则指定可用于 GROUP BY 的列、聚合函数 (COUNT、SUM、AVG) 和输出的最小行数。列表规则允许仅输出匹配连接条件的记录的特定列。数据隐私相关书籍 (Amazon) 详细解析了洁净室技术的法律和技术背景。实务中,广告主与发布商在无 Cookie 环境下进行受众重叠分析,以及制药公司间联合执行患者队列统计分析是典型案例。
差分隐私与加密计算的高级保护
仅靠分析规则,通过巧妙的查询组合仍存在个人被识别的再标识风险。Clean Rooms 的差分隐私功能通过向查询结果添加数学控制的噪声,定量限制单条记录的存在对结果的影响。设置隐私预算 (epsilon),当预算耗尽时将无法执行更多查询,从而防止累积性信息泄露。需要更高级保护时,可以使用加密计算 (Cryptographic Computing)。这是使用 C3R (Cryptographic Computing for Clean Rooms) 客户端预先加密数据,在加密状态下执行连接和聚合的技术。即使 Clean Rooms 服务端也无法访问明文数据,因此可满足最严格的数据保护要求。Google 的 Ads Data Hub 和 Azure 的 Confidential Ledger 也提供类似的隐私保护分析,但 Clean Rooms 与 AWS 数据分析生态系统 (Athena、Glue、S3) 的无缝集成是其优势。