AWS Clean Rooms ML 隐私保护型机器学习 - 无需共享数据即可构建模型

详细介绍通过 Clean Rooms ML 构建相似人群模型、应用差分隐私以及在广告定向投放中的实际应用。

Clean Rooms ML 概述

Clean Rooms ML 是一项在 Clean Rooms 内保护隐私的同时构建 ML 模型的服务,支持数百万条记录规模的数据集。广告主和发布商无需直接查看彼此的数据,即可共同构建相似人群模型并生成相似用户细分群体。通过差分隐私技术在数学上保证个人数据的保护,同时最大化营销效果。在第三方 Cookie 逐步废弃的背景下,该服务作为安全协作利用第一方数据的手段而备受关注。

相似人群模型与差分隐私

相似人群模型是一种用于识别「与现有优质客户相似的新用户」的 ML 模型。广告主提供已转化用户列表 (种子数据),从发布商的受众数据中提取相似用户。种子数据推荐数百至数千条记录,太少会降低模型精度。差分隐私通过向模型输出添加噪声,在数学上保证无法推测个人级别的数据。epsilon (ε) 值越小,隐私保护越强,但模型精度会降低,因此根据用例调整该值非常重要。生成的相似人群细分用于广告活动的定向投放,以提高转化率。

协作设计

Clean Rooms 的协作中,为每个参与者定义数据提供范围和分析规则。通过分析规则设置允许的查询类型 (仅聚合、是否允许列表输出)、最小聚合单位 (例如:仅允许 100 条记录以上的聚合),防止个人级别的数据提取。在 ML 模型构建中,广告主提供种子数据 (已转化用户),与发布商的受众数据进行匹配以生成相似人群细分。通过调整差分隐私的 epsilon 值来控制隐私保护强度与模型精度之间的权衡。输出结果遵循协作的分析规则,仅以无法识别个人的聚合级别返回。 在Amazon 的相关书籍中也可以了解 Clean Rooms 的实践方法。

Clean Rooms ML 的定价

Clean Rooms 按查询处理量 (扫描的数据量) 计费。ML 模型构建会产生额外费用,相似人群模型的训练和细分生成分别计费。启用差分隐私后,会增加噪声注入的计算成本。通常采用参与者之间分担成本的设计,由执行查询的一方承担处理费用。当数据量较大时,可通过缩小分析对象的时间范围或列来减少扫描量以优化成本。将 S3 中的数据以 Parquet 格式进行分区存储,可以提高查询的扫描效率。

用例与应用模式

介绍 Clean Rooms ML 的典型用例。在广告定向中,将电商网站的购买者列表作为种子数据,从媒体企业的受众数据中生成相似人群细分以提高广告活动的 ROI。在零售媒体网络中,零售商的购买数据和广告主的转化数据进行安全匹配,识别可能进行实体店购买的在线用户。在金融行业,银行和保险公司在不直接共享个人信息的情况下共同分析交叉销售目标客户细分。在医疗保健领域,制药公司和医疗机构以无法识别患者的形式共同分析临床数据,用于识别治疗效果较高的患者群体。在所有情况下,当法规或隐私政策禁止直接数据共享时,Clean Rooms ML 作为不丧失分析价值的协作手段发挥作用。

与其他隐私保护技术的比较

将 Clean Rooms ML 与其他隐私保护技术进行比较。传统的数据清洁室 (Snowflake Data Clean Room、Google Ads Data Hub 等) 以 SQL 聚合查询为主,不支持 ML 模型的协同构建。Clean Rooms ML 以托管方式提供相似人群模型训练,形成差异化。联邦学习 (Federated Learning) 是一种不移动数据就训练模型的方法,但参与者之间的模型更新协调复杂,实施成本较高。Clean Rooms ML 作为 AWS 托管服务最小化了构建和运维的负担。安全多方计算 (Secure Multi-Party Computation) 计算成本高,对大规模数据集的应用可能有困难,而差分隐私通过轻量级的噪声注入实现可扩展的保护。k-匿名化和数据掩码是静态预处理方法,无法提供像差分隐私那样的数学保证。

总结

Clean Rooms ML 是一项无需共享数据即可构建隐私保护型 ML 模型的服务。通过差分隐私的 epsilon 值控制保护强度与模型精度的权衡,并通过分析规则防止个人级别的数据提取。在广告主和发布商之间,无需直接共享数据即可安全地实现相似人群细分的生成。