AWS Entity Resolution
複数データソースに散在する顧客レコードを照合・統合し、統一的な顧客プロファイルを構築するマネージドサービス
概要
AWS Entity Resolution は、異なるデータソースに分散した顧客レコードを照合 (マッチング) し、同一エンティティを特定して統合するフルマネージドサービスです。CRM、EC サイト、コールセンターなど複数システムに散在する顧客データを、名前・住所・メールアドレス・電話番号などの属性を手がかりに名寄せします。ルールベースのマッチング (完全一致・部分一致の条件組み合わせ) と ML ベースのマッチング (機械学習による類似度判定) の両方を提供し、データ品質やユースケースに応じて使い分けられます。Glue Data Catalog や S3 のデータソースと直接連携し、ETL パイプラインの一部として組み込むことで、データウェアハウスへの投入前にレコードの重複排除と統合を自動化できます。
マッチングワークフローの設計
Entity Resolution のワークフローは、Schema Mapping → Matching Workflow → ID Mapping の 3 ステップで構成されます。Schema Mapping では各データソースのカラムを標準属性 (名前、住所、電話番号、メールなど) にマッピングし、異なるスキーマのデータを統一的に扱えるようにします。Matching Workflow ではマッチングルールを定義し、どの属性の組み合わせで同一エンティティと判定するかを設定します。ルールベースでは「メールアドレスが完全一致」OR「電話番号が完全一致 AND 姓のフォネティック一致」のような複合条件を宣言的に記述できます。ML ベースのマッチングでは、表記揺れ (田中太郎 vs タナカタロウ)、住所の略記 (東京都 vs 東京)、旧姓などの曖昧な一致も高精度で検出します。処理結果は Match ID として各レコードに付与され、同一エンティティに属するレコード群を一意に識別できます。
データプロバイダーサービスとの連携
Entity Resolution は AWS Data Exchange 上のサードパーティデータプロバイダーと連携し、自社データを外部データで補完するエンリッチメント機能を提供します。例えば、LiveRamp や TransUnion のデータサービスと接続し、自社の顧客レコードに対してデモグラフィック情報や購買傾向データを付加できます。この連携はプライバシー保護の仕組み (暗号化されたトークンベースのマッチング) を通じて行われ、生の個人情報を外部に送信することなくデータ照合が可能です。データ統合の関連書籍 (Amazon) でマスターデータ管理の設計パターンを学べます。ID Namespace 機能を使えば、自社の顧客 ID 体系とプロバイダーの ID 体系を安全にマッピングし、クロスチャネルでの顧客理解を深められます。Clean Rooms との組み合わせで、パートナー企業とのデータコラボレーションにも活用できます。
運用パターンとコスト最適化
Entity Resolution の料金はマッチング処理で比較されるレコードペア数に基づくため、入力データの前処理がコスト最適化の鍵になります。明らかに異なるレコード (異なる国コード、異なる性別) を事前にフィルタリングし、比較対象を絞り込むブロッキング戦略が有効です。定期的なバッチ実行 (日次・週次) で新規レコードの名寄せを行う場合、前回処理以降の差分レコードのみを対象にするインクリメンタル処理パターンが推奨されます。Glue ジョブと組み合わせて、S3 上の新規ファイル到着をトリガーに自動実行するイベントドリブンパイプラインを構築できます。マッチング精度のチューニングでは、False Positive (誤って同一と判定) と False Negative (同一なのに見逃し) のバランスを、ビジネス要件に応じて閾値調整します。マーケティング用途では再現率 (Recall) を重視し、金融のコンプライアンス用途では適合率 (Precision) を重視する設計が一般的です。