客户 ID 统合 - 使用 AWS Entity Resolution 对分散的客户数据进行名称匹配
详解使用 AWS Entity Resolution 进行客户数据的名称匹配(实体解析)。介绍基于机器学习的匹配、基于规则的匹配、隐私保护以及与 Clean Rooms 的集成。
客户数据名称匹配的挑战
企业的客户数据分散在 CRM、电商网站、呼叫中心、营销工具等多个系统中。同一客户在不同系统中以不同表记注册(如"田中太郎"与"タナカ タロウ"、"东京都港区"与"港区"),将这些关联为同一人的名称匹配(实体解析)是长期课题。传统方法需要自行实现完全匹配或模糊匹配逻辑,但表记差异、缩写、格式不同等使精度难以提升。AWS Entity Resolution 通过托管服务解决这一课题。
匹配方式与设置
Entity Resolution 提供两种匹配方式。ML 匹配由 AWS 的机器学习模型综合评估姓名、地址、电话号码、电子邮件地址等属性,计算同一实体的概率。自动处理表记差异、缩写和格式不同,无需定义规则。规则匹配通过定义业务规则进行精确控制。例如可定义"电子邮件地址完全匹配则视为同一人""姓名模糊匹配且电话号码后 4 位一致则视为同一人"等条件。 关于客户数据整合的详细信息,可参考相关书籍 (Amazon)。
用例与 Clean Rooms 集成
主要用例包括营销客户统合(整合多渠道客户数据构建 360 度客户视图)、欺诈检测(检测不同账户为同一人)和数据清洗(检测和合并重复记录)。与 Clean Rooms 集成可在不共享组织间数据的情况下执行名称匹配。例如广告主和发布商可在不公开各自客户数据的情况下识别共同客户,实现隐私保护的受众匹配。
Entity Resolution 的费用
Entity Resolution 按处理的记录数计费。ML 匹配每 1,000 条记录约 0.25 美元,规则匹配每 1,000 条记录约 0.25 美元。ID 映射每 1,000 条记录约 0.25 美元。首次名称匹配处理针对所有记录因此成本较高,但通过差分处理仅处理新增/更新记录可控制后续成本。
总结 - Entity Resolution 的活用指南
AWS Entity Resolution 通过托管服务实现分散客户数据的名称匹配。ML 匹配的自动表记差异处理、规则匹配的精确控制以及与 Clean Rooms 集成的隐私保护是其主要优势。适用于客户数据分散在多个系统中、需要构建统一客户视图的组织。