顧客 ID 統合 - AWS Entity Resolution で分散した顧客データを名寄せする
AWS Entity Resolution を使った顧客データの名寄せ (エンティティ解決) を解説。ML ベースのマッチング、ルールベースのマッチング、プライバシー保護、Clean Rooms との統合を紹介します。
顧客データの名寄せ課題
企業の顧客データは CRM、EC サイト、コールセンター、マーケティングツールなど複数のシステムに分散しています。同一の顧客が異なるシステムで異なる表記 (「田中太郎」と「タナカ タロウ」、「東京都港区」と「港区」) で登録されており、これらを同一人物として紐付ける名寄せ (エンティティ解決) は長年の課題です。従来は完全一致やファジーマッチングのロジックを自前で実装する必要がありましたが、表記揺れのパターンが多岐にわたるため精度と網羅性の両立が困難でした。AWS Entity Resolution は、ML ベースまたはルールベースのマッチングで顧客データの名寄せを実現するマネージドサービスです。
マッチング方式と設定
Entity Resolution は 2 つのマッチング方式を提供します。ML マッチングは AWS の ML モデルが名前、住所、電話番号、メールアドレスなどの属性を総合的に評価し、同一エンティティの確率を算出します。表記揺れ、略記、フォーマットの違いを自動的に処理するため、ルール定義の手間が不要です。ルールベースマッチングはビジネスルールを定義して精密に制御します。たとえば「メールアドレスが完全一致 AND 名前の類似度が 80% 以上」「電話番号が一致 AND 住所の都道府県が一致」といった条件を組み合わせます。入力データは Glue Data Catalog 経由で S3 上のデータソースを参照します。スキーママッピングで入力データの列と Entity Resolution の属性タイプ (名前、住所、電話番号、メールアドレスなど) を対応付けます。
ユースケースと Clean Rooms 統合
主なユースケースは、マーケティングの顧客統合 (複数チャネルの顧客データを統合して 360 度の顧客ビューを構築)、不正検知 (異なるアカウントが同一人物であることを検出)、データクレンジング (重複レコードの検出と統合) です。 Clean Rooms との統合により、組織間のデータを共有せずに名寄せを実行できます。たとえば広告主とパブリッシャーが、互いの顧客データを公開せずに共通の顧客を特定し、広告効果を測定するユースケースに活用できます。料金は ML マッチングが処理レコード 1,000 件あたり 0.25 USD 、ルールベースが 0.025 USD です。 100 万件の顧客レコードを ML マッチングで処理する場合、約 250 USD です。 データ分析の知見を広げたい場合はAmazon の専門書も活用できます。
Entity Resolution の料金
Entity Resolution の料金は処理したレコード数で課金されます。ML マッチングは 1,000 レコードあたり約 0.25 ドル、ルールベースマッチングは 1,000 レコードあたり約 0.25 ドルです。ID マッピングは 1,000 レコードあたり約 0.25 ドルです。初回の名寄せ処理は全レコードが対象になるためコストが高くなりますが、差分処理で新規・更新レコードのみを処理することで継続的なコストを抑えられます。Clean Rooms との統合で使用する場合、Clean Rooms のクエリ料金が別途発生します。
まとめ - Entity Resolution の活用指針
AWS Entity Resolution は、分散した顧客データの名寄せをマネージドサービスで実現します。ML マッチングによる自動的な表記揺れ処理、ルールベースによる精密な制御、Clean Rooms との統合によるプライバシー保護が主な強みです。複数システムに顧客データが分散しており、統一的な顧客ビューの構築が課題になっている組織に適しています。