AWS Clean Rooms
複数企業がデータを共有せずに共同分析を行えるプライバシー保護型データコラボレーションサービス
何ができるか
AWS Clean Rooms は、複数の企業や組織が互いの生データを直接共有することなく、共同でデータ分析を行えるプライバシー保護型のサービスです。各参加者は自社のデータを自社の AWS アカウントに保持したまま、事前に合意した分析ルール (クエリ) のみを実行できます。分析結果は集計値のみが返され、個別のレコードにはアクセスできない仕組みです。
どのような場面で使うか
広告主とメディア企業間の広告効果測定 (個人データを共有せずにコンバージョン分析)、製薬会社間の臨床データの共同分析、小売業者とメーカー間の購買データの共同マーケティング分析、金融機関間の不正検知のためのデータ照合などに活用されています。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
身近な例え
密封された投票箱に例えるとわかりやすいでしょう。各企業が自社のデータ (投票用紙) を密封された箱 (Clean Rooms) に入れます。箱の中で集計 (分析) が行われ、結果 (集計値) だけが外に出てきます。誰がどの投票用紙を入れたか (個別データ) は誰にも見えません。データのプライバシーを守りながら、全体の傾向を把握できます。
Clean Rooms とは
この記事は約 2 分で読めます。 AWS Clean Rooms は、複数の組織がデータを安全に共同分析するためのサービスです。ビジネスでは、他社のデータと自社のデータを組み合わせて分析したい場面があります。しかし、個人情報保護やデータセキュリティの観点から、生データをそのまま共有することは困難です。Clean Rooms は、データを共有せずに共同分析を実現する仕組みを提供します。
コラボレーションの仕組み
Clean Rooms では、まず参加者間で「コラボレーション」を作成します。各参加者は自社の S3 に保存されたデータを「設定済みテーブル」として登録し、どのカラムを分析に使用するか、どのような集計 (SUM、COUNT、AVG など) を許可するかを細かく制御します。分析を実行する側は、許可されたクエリのみを実行でき、個別レコードの抽出はできません。
プライバシー保護の仕組み
Clean Rooms は複数のプライバシー保護メカニズムを備えています。分析ルールにより、許可された集計クエリのみが実行可能です。出力制約により、集計結果の最小行数を設定でき、少数のレコードから個人を特定されるリスクを防ぎます。さらに、Clean Rooms ML を使えば差分プライバシーを適用でき、統計的なノイズを加えて個人の特定をより困難にできます。
はじめかた
Clean Rooms コンソールでコラボレーションを作成し、参加者を招待します。各参加者は自社の S3 データを設定済みテーブルとして登録し、分析ルール (許可するクエリの種類、集計関数、出力制約) を設定します。分析を実行する参加者がクエリを実行すると、ルールに従った集計結果が返されます。まずは社内の 2 つの部門間でテスト的に始めるのがおすすめです。
Azure・オンプレミスとの比較
AWS の優位点
- S3 上の既存データをそのまま分析対象にでき、データの移動やコピーが不要なため、データガバナンスを維持したまま共同分析を開始できる
- 分析ルールをカラム単位・集計関数単位で細かく制御でき、参加者ごとに異なるアクセス権限を設定できる
- Clean Rooms ML との統合により差分プライバシーを適用でき、統計的に証明可能なプライバシー保護を実現できる
注意点
- Clean Rooms の料金はクエリで処理されたデータ量に基づく従量課金で、データの保存自体には追加料金は発生しない
- 分析ルールの設定が不適切だと、意図しないデータの漏洩や、逆に必要な分析ができない状況が発生するため、ルール設計は慎重に行うこと
- 参加者全員が AWS アカウントを持っている必要があり、AWS を利用していないパートナーとのコラボレーションには別途対応が必要
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。