AWS Entity Resolution で実現するレコードマッチング - 顧客データの名寄せと統合
Entity Resolution による複数データソースのレコードマッチング、マッチングワークフローの設計を解説します。
Entity Resolution の概要
Entity Resolution は複数のデータソースに分散したレコードをマッチング・リンクし、統一的なエンティティビューを構築するサービスで、1 ワークフローあたり最大 2,000 万レコードを処理できます。CRM、EC サイト、サポートシステムに分散した同一顧客のレコードを自動的に紐づけます。ルールベースと ML ベースの 2 種類のマッチング手法を提供し、名前の表記揺れや住所の略記にも対応します。
マッチング手法
ルールベースマッチングは、メールアドレスや電話番号の完全一致など、明確なルールでマッチングします。ML ベースマッチングは、名前の表記揺れ、住所の略記、電話番号のフォーマット差異を考慮した柔軟なマッチングを提供します。両手法を組み合わせる段階的なアプローチで、精度とコストのバランスを最適化します。ルールベースで高確度のマッチを先に処理し、残りを ML で処理する設計が効果的です。
ワークフローと ID マッピング
マッチングワークフローはデータソース (S3 または Glue テーブル) を入力とし、マッチング結果を S3 に出力します。スキーママッピングで入力データのカラムを Entity Resolution の標準フィールド (名前、住所、電話番号、メールアドレス) にマッピングします。 ID マッピングワークフローは、サードパーティのデータプロバイダー (LiveRamp 、 TransUnion) と連携し、自社の顧客 ID を外部の ID グラフと照合して統一 ID を生成します。マッチング結果にはマッチ ID 、信頼度スコア、マッチしたレコードのペアが含まれ、下流の分析やマーケティングシステムに統合できます。 Entity Resolution の分析手法を深く理解するには、専門書籍 (Amazon)が役立ちます。
Entity Resolution の料金
Entity Resolution の料金はマッチングに処理したレコード数で課金されます。ルールベースマッチングは 1,000 レコードあたり約 0.25 ドル、ML ベースマッチングは約 0.75 ドルです。ID マッピングはプロバイダーごとの料金が別途発生します。初回のマッチングでは全レコードを処理しますが、増分マッチング (新規・更新レコードのみ) を活用して定期実行のコストを削減します。マッチング前にデータのクレンジング (表記の正規化、明らかな重複の事前排除) を行うことで、処理レコード数を減らしコストを最適化します。
まとめ
Entity Resolution は複数データソースのレコードをマッチング・統合し、統一的な顧客ビューを構築するサービスです。ルールベースで高確度のマッチを処理し、ML ベースで名前の表記揺れや住所の略記に対応する段階的なアプローチが効果的です。ID マッピングで外部データプロバイダーとの連携も実現し、増分マッチングで定期実行のコストを最適化します。