AWS Entity Resolution のアイコン

AWS Entity Resolution

異なるデータソースのレコードを照合・統合するデータマッチングサービス

何ができるか

AWS Entity Resolution は、異なるデータソースに散在する同一エンティティ (顧客、製品など) のレコードを照合・統合するサービスです。名前の表記揺れや住所の違いなどがあっても、ルールベースまたは機械学習ベースのマッチングで同一レコードを特定します。

どのような場面で使うか

複数の CRM システムに分散した顧客データの統合、マーケティングデータベースの重複排除、パートナー企業間でのデータクリーンルームを使った安全なデータ照合などに利用されます。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。

身近な例え

名簿の突き合わせ作業に例えられます。複数の名簿に「田中太郎」「たなかタロウ」「T. Tanaka」と異なる表記で登録されている同一人物を、自動的に見つけ出して 1 つにまとめます。

Entity Resolution とは

この記事は約 2 分で読めます。 AWS Entity Resolution は、データのマッチングと統合を行うサービスです。企業が複数のシステムやデータソースを持つと、同じ顧客や製品が異なる形式で登録されることがあります。Entity Resolution はこれらのレコードを照合し、統一されたビューを作成します。

マッチング手法

Entity Resolution はルールベースと機械学習ベースの 2 つのマッチング手法を提供します。ルールベースでは、メールアドレスや電話番号などの属性を組み合わせた照合ルールを定義します。機械学習ベースでは、AWS が事前トレーニングしたモデルが表記揺れや部分一致を考慮して照合します。データプロバイダーサービスとの連携で、サードパーティのデータとの照合も可能です。

はじめかた

Entity Resolution コンソールでスキーママッピングを作成し、入力データの属性を定義します。マッチングワークフローを作成してマッチング手法とルールを設定し、ジョブを実行します。結果は S3 に出力され、マッチしたレコードのグループが確認できます。

Azure・オンプレミスとの比較

Azure の対応サービス Azure Purview (Data Quality)
オンプレミスでの対応手段 Informatica MDM、IBM InfoSphere

AWS の優位点

  • AWS ネイティブのサービスとして Glue、S3、Clean Rooms とシームレスに統合される
  • ルールベースと機械学習ベースの両方のマッチング手法を選択でき、用途に応じた精度とコストのバランスが取れる
  • サーバーレスで実行されるため、インフラの管理が不要

注意点

  • マッチング精度はデータの品質と照合ルールの設計に大きく依存するため、テストデータで検証してからルールを確定すること
  • 処理したレコード数に応じた従量課金で、機械学習ベースのマッチングはルールベースより単価が高い

さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。