AWS Clean Rooms ML
多个组织无需共享数据即可联合训练和推理机器学习模型的隐私保护型 ML 协作功能
概述
AWS Clean Rooms ML 是 AWS Clean Rooms 的扩展功能,允许多个组织在不直接共享彼此原始数据的情况下联合执行机器学习模型的训练和推理。广告主与发布商、零售商与制造商等数据协作伙伴之间,可以在保护隐私的同时生成相似受众或构建转化预测模型。利用差分隐私和安全计算技术,从数学上控制单条记录被识别的风险。将以往因法律和技术障碍难以实现的跨组织 ML 应用,以托管服务的形式轻松导入。
通过 Lookalike Modeling 生成相似受众
Clean Rooms ML 的代表性用例是 Lookalike Modeling (相似受众生成)。将广告主持有的优质客户列表 (种子数据) 与发布商持有的用户属性数据进行匹配,生成具有与种子客户相似特征的新目标受众。此处理在 Clean Rooms 的协作环境内执行,广告主无法看到发布商的单个用户数据,发布商也无法了解广告主客户列表的详情。生成的相似受众以带有相似度评分的细分形式输出,可连接到广告投放平台以提高定向精度。模型训练是自动化的,即使没有 ML 专业知识也可以从控制台点击几下即可执行。
隐私保护的技术机制
Clean Rooms ML 的隐私保护由多个技术层构成。首先,通过协作的分析规则限制各参与者可访问的数据范围和聚合级别。在 ML 处理中,通过差分隐私 (Differential Privacy) 的噪声注入,使从模型输出逆向推断单条记录在数学上变得困难。通过隐私预算的概念管理查询累积带来的隐私风险积累,超出预算的查询会被自动阻止。隐私保护技术相关书籍 (Amazon) 可用于学习差分隐私理论。通过在加密数据上进行计算 (Secure Computation),确保处理过程中数据不会以明文形式暴露。审计日志记录在 CloudTrail 中,可追踪谁在何时执行了什么分析。
协作设计与实务考量
要使用 Clean Rooms ML,首先需要在合作伙伴之间达成协作共识。需要事先商定数据使用目的、分析规则 (最小聚合单位、可输出的指标)、隐私预算的分配,并反映到 Clean Rooms 的协作设置中。实务中,法务部门的数据使用协议审查与技术团队的分析规则设计通常并行推进。成本结构由协作内处理的数据量和 ML 作业的执行时间决定。对于 Lookalike Modeling,种子数据的大小和匹配目标的数据规模直接影响费用,因此提高种子质量并缩减数量 (如限定为前 10% 的优质客户) 的方法在成本效率上更优。模型再训练频率根据受众变化速度设置为每周到每月,在新鲜度和成本之间取得平衡。