Question 1

AWS Entity Resolution とは何ですか？

Accepted Answer

AWS Entity Resolution 是一项全托管服务，用于匹配分散在不同数据源中的客户记录，识别并整合同一实体。它以姓名、地址、电子邮件、电话号码等属性为线索，对 CRM、电商网站、呼叫中心等多个系统中分散的客户数据进行名称统一。提供基于规则的匹配 (完全匹配与部分匹配的条件组合) 和基于 ML 的匹配 (机器学习相似度判定) 两种方式，可根据数据质量和用例灵活选择。与 Glue Data Catalog 和 S3 数据源直接集成，作为 ETL 管道的一部分，可在数据导入数据仓库前自动完成记录去重与整合。

Question 2

匹配工作流的设计

Accepted Answer

Entity Resolution 的工作流由 Schema Mapping → Matching Workflow → ID Mapping 三个步骤组成。Schema Mapping 将各数据源的列映射到标准属性 (姓名、地址、电话号码、电子邮件等)，使不同模式的数据可以统一处理。Matching Workflow 定义匹配规则，设置以哪些属性组合判定为同一实体。基于规则的方式可以声明式地编写复合条件，如「电子邮件完全匹配」OR「电话号码完全匹配 AND 姓氏语音匹配」。基于 ML 的匹配可高精度检测表记差异 (田中太郎 vs タナカタロウ)、地址缩写 (东京都 vs 东京)、曾用名等模糊匹配。处理结果以 Match ID 形式附加到各记录，可唯一标识属于同一实体的记录组。

Question 3

与数据提供商服务的集成

Accepted Answer

Entity Resolution 与 AWS Data Exchange 上的第三方数据提供商集成，提供用外部数据补充自有数据的增强功能。例如，可连接 LiveRamp 或 TransUnion 的数据服务，为自有客户记录附加人口统计信息和购买倾向数据。此集成通过隐私保护机制 (基于加密令牌的匹配) 进行，无需将原始个人信息发送到外部即可完成数据匹配。数据集成相关书籍 (Amazon) 可学习主数据管理的设计模式。使用 ID Namespace 功能可安全地映射自有客户 ID 体系与提供商 ID 体系，深化跨渠道客户理解。结合 Clean Rooms 还可用于合作伙伴企业间的数据协作。

Question 4

运维模式与成本优化

Accepted Answer

Entity Resolution 的费用基于匹配处理中比较的记录对数，因此输入数据的预处理是成本优化的关键。对明显不同的记录 (不同国家代码、不同性别) 进行预过滤，缩小比较范围的分块策略非常有效。定期批量执行 (每日/每周) 对新记录进行名称统一时，推荐仅处理上次处理后的增量记录的增量处理模式。可结合 Glue 作业，构建以 S3 上新文件到达为触发的事件驱动管道。匹配精度调优需根据业务需求平衡误报 (False Positive，错误判定为同一) 和漏报 (False Negative，同一却未检出)。营销用途通常重视召回率 (Recall)，金融合规用途通常重视精确率 (Precision)。

概述

匹配工作流的设计

与数据提供商服务的集成

运维模式与成本优化

相关术语

相关服务

相关文章

相似的术语与文章