顧客 ID 統合 - AWS Entity Resolution で分散した顧客データを名寄せする
AWS Entity Resolution を使った顧客データの名寄せ (エンティティ解決) を解説。ML ベースのマッチング、ルールベースのマッチング、プライバシー保護、Clean Rooms との統合を紹介します。
顧客データの名寄せ課題
企業の顧客データは CRM、EC サイト、コールセンター、マーケティングツールなど複数のシステムに分散しています。同一の顧客が異なるシステムで異なる表記 (「田中太郎」と「タナカ タロウ」、「東京都港区」と「港区」) で登録されており、これらを同一人物として紐付ける名寄せ (エンティティ解決) は長年の課題です。従来は完全一致やファジーマッチングのロジックを自前で実装する必要がありましたが、表記揺れのパターンが多岐にわたるため精度と網羅性の両立が困難でした。AWS Entity Resolution は、ML ベースまたはルールベースのマッチングで顧客データの名寄せを実現するマネージドサービスです。
この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
マッチング方式と設定
Entity Resolution は 2 つのマッチング方式を提供します。ML マッチングは AWS の ML モデルが名前、住所、電話番号、メールアドレスなどの属性を総合的に評価し、同一エンティティの確率を算出します。表記揺れ、略記、フォーマットの違いを自動的に処理するため、ルール定義の手間が不要です。ルールベースマッチングはビジネスルールを定義して精密に制御します。たとえば「メールアドレスが完全一致 AND 名前の類似度が 80% 以上」「電話番号が一致 AND 住所の都道府県が一致」といった条件を組み合わせます。入力データは Glue Data Catalog 経由で S3 上のデータソースを参照します。スキーママッピングで入力データの列と Entity Resolution の属性タイプ (名前、住所、電話番号、メールアドレスなど) を対応付けます。
ユースケースと Clean Rooms 統合
主なユースケースは、マーケティングの顧客統合 (複数チャネルの顧客データを統合して 360 度の顧客ビューを構築)、不正検知 (異なるアカウントが同一人物であることを検出)、データクレンジング (重複レコードの検出と統合) です。Clean Rooms との統合により、組織間のデータを共有せずに名寄せを実行できます。たとえば広告主とパブリッシャーが、互いの顧客データを公開せずに共通の顧客を特定し、広告効果を測定するユースケースに活用できます。料金は ML マッチングが処理レコード 1,000 件あたり 0.25 USD、ルールベースが 0.025 USD です。100 万件の顧客レコードを ML マッチングで処理する場合、約 250 USD です。
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。
まとめ - Entity Resolution の活用指針
AWS Entity Resolution は、分散した顧客データの名寄せをマネージドサービスで実現します。ML マッチングによる自動的な表記揺れ処理、ルールベースによる精密な制御、Clean Rooms との統合によるプライバシー保護が主な強みです。複数システムに顧客データが分散しており、統一的な顧客ビューの構築が課題になっている組織に適しています。
AWS の優位点
- 複数のデータソースに分散した顧客レコードを ML またはルールベースで名寄せし、統一的な顧客ビューを構築
- ML マッチングは名前の表記揺れ、住所の略記、電話番号のフォーマット違いなどを自動的に処理
- ルールベースマッチングはビジネスルール (メールアドレス一致 + 名前類似など) を定義して精密に制御
- Glue Data Catalog と統合し、S3 上のデータソースを直接参照して名寄せを実行
- Clean Rooms との統合で、組織間のデータを共有せずに名寄せを実行可能
- 処理レコード 1,000 件あたり 0.25 USD (ML マッチング)、0.025 USD (ルールベース)
- マーケティングの顧客統合、不正検知のエンティティリンク、データクレンジングに活用