AWS Entity Resolution
異なるデータソースのレコードを照合・統合するデータマッチングサービス
何ができるか
AWS Entity Resolution は、異なるデータソースに散在する同一エンティティ (顧客、製品など) のレコードを照合・統合するサービスです。名前の表記揺れや住所の違いなどがあっても、ルールベースまたは機械学習ベースのマッチングで同一レコードを特定します。
どのような場面で使うか
複数の CRM システムに分散した顧客データの統合、マーケティングデータベースの重複排除、パートナー企業間でのデータクリーンルームを使った安全なデータ照合などに利用されます。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
身近な例え
名簿の突き合わせ作業に例えられます。複数の名簿に「田中太郎」「たなかタロウ」「T. Tanaka」と異なる表記で登録されている同一人物を、自動的に見つけ出して 1 つにまとめます。
Entity Resolution とは
AWS Entity Resolution は、データのマッチングと統合を行うサービスです。企業が複数のシステムやデータソースを持つと、同じ顧客や製品が異なる形式で登録されることがあります。Entity Resolution はこれらのレコードを照合し、統一されたビューを作成します。
マッチング手法
Entity Resolution はルールベースと機械学習ベースの 2 つのマッチング手法を提供します。ルールベースでは、メールアドレスや電話番号などの属性を組み合わせた照合ルールを定義します。機械学習ベースでは、AWS が事前トレーニングしたモデルが表記揺れや部分一致を考慮して照合します。データプロバイダーサービスとの連携で、サードパーティのデータとの照合も可能です。
はじめかた
Entity Resolution コンソールでスキーママッピングを作成し、入力データの属性を定義します。マッチングワークフローを作成してマッチング手法とルールを設定し、ジョブを実行します。結果は S3 に出力され、マッチしたレコードのグループが確認できます。
注意点
- マッチング精度はデータの品質と照合ルールの設計に大きく依存するため、テストデータで検証してからルールを確定すること
- 処理したレコード数に応じた従量課金で、機械学習ベースのマッチングはルールベースより単価が高い
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。