通过 AWS Entity Resolution 实现记录匹配 - 客户数据的合并与整合

介绍通过 Entity Resolution 对多个数据源进行记录匹配以及匹配工作流的设计方法。

Entity Resolution 概述

Entity Resolution 是一项将分散在多个数据源中的记录进行匹配和关联,构建统一实体视图的服务,每个工作流最多可处理 2000 万条记录。它能自动关联分散在 CRM、电商网站和客服系统中的同一客户记录。提供基于规则和基于 ML 两种匹配方法,可应对姓名书写差异和地址缩写等情况。输入数据可以指定在 AWS Glue Data Catalog 中注册的表或 S3 上的文件,输出以匹配结果文件形式写入 S3。该服务为全托管式,无需管理基础设施,处理规模也会自动扩展。

匹配方法

基于规则的匹配通过电子邮件地址或电话号码的精确匹配等明确规则进行匹配。可以用 OR 条件组合多条规则,从而定义「邮箱匹配 OR 电话号码和姓氏匹配」之类的灵活条件。每条规则内部用 AND 条件组合多个字段来调整精度。基于 ML 的匹配提供灵活的匹配能力,可考虑姓名书写差异、地址缩写和电话号码格式差异。使用 AWS 预训练的模型,客户无需自行准备训练数据。将两种方法组合使用的分阶段方法可优化精度与成本的平衡。先用基于规则的方法处理高置信度匹配,再用 ML 处理剩余部分的设计最为有效。

工作流与 ID 映射

匹配工作流以数据源(S3 或 Glue 表)作为输入,将匹配结果输出到 S3。通过 Schema 映射将输入数据的列映射到 Entity Resolution 的标准字段(姓名、地址、电话号码、电子邮件地址)。ID 映射工作流与第三方数据提供商(LiveRamp、TransUnion)协作,将自有客户 ID 与外部 ID 图谱进行比对,生成统一 ID。匹配结果包含匹配 ID、置信度分数和匹配的记录对,可集成到下游的分析或营销系统中。 如需深入了解 Entity Resolution 的分析方法,可参考专业书籍 (Amazon)

使用场景

Entity Resolution 的代表性使用场景是客户数据整合 (CDI)。将分散在电商购买记录、客服工单、邮件营销列表等不同系统中的客户记录通过统一 ID 关联,构建 360 度客户视图。在广告领域,通过 ID 映射将第一方数据与广告平台的受众数据匹配,实现跨渠道归因分析。在医疗健康领域,通过对分散在多个医疗机构的患者记录进行合并来提升护理连续性。金融机构在 KYC(了解你的客户)流程中利用该服务在多个数据库间判定同一人。结合 AWS Clean Rooms,可以构建「数据净室」模式,在不直接共享数据的情况下跨组织进行联合匹配分析。

设计最佳实践与常见陷阱

在 Schema 映射设计中,将输入数据的列准确映射到 Entity Resolution 的标准字段是精度的关键。将地址拆分为「省/州」「市/区」「街道」分别映射,比合并为一个字段映射能获得更高的精度。常见陷阱是匹配前数据清洗不足。全角/半角不统一、新旧字体混用、电话号码是否含连字符等差异应事先规范化。包含 NULL 值或空字符串的记录会大幅降低匹配精度,应在预处理中排除或标记。ML 匹配中置信度分数的阈值设置很关键——过低会增加误匹配(假阳性),过高会增加漏匹配(假阴性)。对于大规模数据,初次全量匹配执行时间可能较长,因此将数据拆分到并行工作流中处理后合并结果的设计也很有效。

Entity Resolution 的定价

Entity Resolution 按匹配处理的记录数计费。基于规则的匹配每 1000 条记录约 0.25 美元,基于 ML 的匹配约 0.75 美元。ID 映射会产生各提供商的额外费用。首次匹配需处理全部记录,但可利用增量匹配(仅处理新增和更新记录)来降低定期执行的成本。在匹配前进行数据清洗(书写规范化、明显重复的预先排除),可减少处理记录数从而优化成本。超过每个工作流 2000 万条记录的上限时,需要拆分数据源跨多个工作流执行。

总结

Entity Resolution 是一项对多个数据源的记录进行匹配和整合,构建统一客户视图的服务。先用基于规则的方法处理高置信度匹配,再用基于 ML 的方法应对姓名书写差异和地址缩写的分阶段方法最为有效。通过 ID 映射实现与外部数据提供商的协作,并通过增量匹配优化定期执行的成本。适当的 Schema 映射设计和输入数据预处理是提升精度的关键,结合 Clean Rooms 可以扩展为跨组织的数据协作。