使用 AWS Clean Rooms 实现隐私保护型数据协作

无需共享或复制数据即可在多企业间执行联合分析。介绍通过聚合规则防止个人识别以及通过 Cryptographic Computing 实现加密分析。

Clean Rooms 概述与使用场景

Clean Rooms 是多个企业无需相互共享或复制数据即可执行联合分析的服务。随着 GDPR 和个人信息保护法的加强,企业间数据共享变得困难,Clean Rooms 提供了在保护隐私的同时提取数据价值的手段。代表性使用场景包括:广告效果衡量(匹配广告主和发布商数据分析转化)、医疗研究(匿名化多个医疗机构的患者数据进行联合研究)、金融风险分析(汇总多个金融机构的交易数据构建风险模型)。2024 年以来,随着第三方 Cookie 废除的推进,作为广告主和发布商之间第一方数据协作手段的关注度急剧上升。

协作与分析规则

协作由参与成员(企业)及其角色(数据提供者、分析执行者)构成。各成员将自有 S3 上的数据注册为 Glue Data Catalog 的表,并关联到协作。通过分析规则控制允许的查询类型。聚合规则仅允许 COUNT、SUM、AVG 等聚合函数,禁止输出单条记录。设置最小聚合单位(例如 100 条记录以上,最大可设置 500 条),排除从少量记录识别个人的风险。列表规则允许输出符合特定条件的记录列表,但可限制可输出的列。Configured Table 对各表的可 JOIN 列、可过滤列、可输出列进行单独控制,最小化数据暴露范围。

Cryptographic Computing

Clean Rooms ML 的 Cryptographic Computing 是对加密数据执行分析的功能。数据提供者以加密状态将数据注册到 Clean Rooms,分析执行者对加密数据执行查询。仅分析结果被解密返回,原始数据完全不公开。这项技术在数学上保证数据机密性的同时实现联合分析。Cryptographic Computing 目前支持相似性匹配(识别两个数据集间的共同记录),可用于广告受众匹配和客户列表比对。 如需拓展数据分析知识,可参考Amazon 的专业书籍

设计最佳实践与陷阱

以下整理了采用 Clean Rooms 时的设计注意要点。首先,数据推荐以 Parquet 格式注册到 Glue Data Catalog。Parquet 的列式存储格式可最小化扫描对象,直接降低分析成本。分区(例如按日期或区域)也很重要,可缩小查询扫描范围。分析规则设计中,最小聚合单位设置过大会使分析粒度过粗无法获得洞察,过小则存在差分攻击(减去两次查询结果推断个人)风险。实务中建议在 25-100 范围内根据分析目的进行平衡。Configured Table 的 JOIN 列限制容易被忽视,但可 JOIN 列设置过宽可能通过意外的交叉联接生成可识别个人的数据集,应仅将必要最少的列设为可 JOIN。

与传统方式的比较

将 Clean Rooms 与企业间数据协作的传统方式进行比较。最简单的方式是 S3 桶共享(跨账户),但允许对原始数据的完全访问,没有隐私控制,在 GDPR 下法律风险很高。数据中介平台(Snowflake Data Clean Rooms、LiveRamp、InfoSum 等)提供类似的隐私保护分析,但通常需要将数据移至第三方平台,产生与 AWS 原生数据管道的集成成本。AWS Clean Rooms 直接使用 S3 和 Glue Data Catalog,优势在于以最小追加成本集成到现有 AWS 数据湖架构中。结合 Lake Formation 的列级访问控制,可在统一框架下管理组织内部数据治理和组织间协作。但 Clean Rooms 以 AWS 账户间协作为前提,合作企业未使用 AWS 时使用困难。

Clean Rooms 的费用

Clean Rooms 按查询处理量计费。SQL 查询基于处理的数据量,每 TB 约 5.00 美元。Cryptographic Computing 产生额外费用,按加密匹配处理量计费。协作创建和成员管理不产生额外费用。通过分析规则限制允许的查询类型,防止意外的大量扫描并管理成本。与合作企业的联合分析中,事先就成本分担达成一致非常重要。

总结

Clean Rooms 是在不共享数据的前提下实现联合分析的隐私保护型服务。通过分析规则控制允许的查询,通过 Cryptographic Computing 实现加密数据分析。在隐私法规持续强化的环境下,正在成为企业间数据协作的新标准。