AWS Entity Resolution

将分散在多个数据源中的客户记录进行匹配与整合,构建统一客户画像的托管服务

概述

AWS Entity Resolution 是一项全托管服务,用于匹配分散在不同数据源中的客户记录,识别并整合同一实体。它以姓名、地址、电子邮件、电话号码等属性为线索,对 CRM、电商网站、呼叫中心等多个系统中分散的客户数据进行名称统一。提供基于规则的匹配 (完全匹配与部分匹配的条件组合) 和基于 ML 的匹配 (机器学习相似度判定) 两种方式,可根据数据质量和用例灵活选择。与 Glue Data Catalog 和 S3 数据源直接集成,作为 ETL 管道的一部分,可在数据导入数据仓库前自动完成记录去重与整合。

匹配工作流的设计

Entity Resolution 的工作流由 Schema Mapping → Matching Workflow → ID Mapping 三个步骤组成。Schema Mapping 将各数据源的列映射到标准属性 (姓名、地址、电话号码、电子邮件等),使不同模式的数据可以统一处理。Matching Workflow 定义匹配规则,设置以哪些属性组合判定为同一实体。基于规则的方式可以声明式地编写复合条件,如「电子邮件完全匹配」OR「电话号码完全匹配 AND 姓氏语音匹配」。基于 ML 的匹配可高精度检测表记差异 (田中太郎 vs タナカタロウ)、地址缩写 (东京都 vs 东京)、曾用名等模糊匹配。处理结果以 Match ID 形式附加到各记录,可唯一标识属于同一实体的记录组。

与数据提供商服务的集成

Entity Resolution 与 AWS Data Exchange 上的第三方数据提供商集成,提供用外部数据补充自有数据的增强功能。例如,可连接 LiveRamp 或 TransUnion 的数据服务,为自有客户记录附加人口统计信息和购买倾向数据。此集成通过隐私保护机制 (基于加密令牌的匹配) 进行,无需将原始个人信息发送到外部即可完成数据匹配。数据集成相关书籍 (Amazon) 可学习主数据管理的设计模式。使用 ID Namespace 功能可安全地映射自有客户 ID 体系与提供商 ID 体系,深化跨渠道客户理解。结合 Clean Rooms 还可用于合作伙伴企业间的数据协作。

运维模式与成本优化

Entity Resolution 的费用基于匹配处理中比较的记录对数,因此输入数据的预处理是成本优化的关键。对明显不同的记录 (不同国家代码、不同性别) 进行预过滤,缩小比较范围的分块策略非常有效。定期批量执行 (每日/每周) 对新记录进行名称统一时,推荐仅处理上次处理后的增量记录的增量处理模式。可结合 Glue 作业,构建以 S3 上新文件到达为触发的事件驱动管道。匹配精度调优需根据业务需求平衡误报 (False Positive,错误判定为同一) 和漏报 (False Negative,同一却未检出)。营销用途通常重视召回率 (Recall),金融合规用途通常重视精确率 (Precision)。

共有するXB!