AWS Clean Rooms で実現するプライバシー保護型データコラボレーション

データを共有・コピーせずに複数企業間で共同分析を実行する。集計ルールによる個人特定防止と Cryptographic Computing による暗号化分析を紹介します。

Clean Rooms の概要とユースケース

Clean Rooms は複数の企業がデータを相互に共有・コピーすることなく、共同で分析を実行するサービスです。GDPR や個人情報保護法の強化により、企業間でのデータ共有が困難になる中、Clean Rooms はプライバシーを保護しながらデータの価値を引き出す手段を提供します。代表的なユースケースは、広告効果測定 (広告主とパブリッシャーのデータを突合してコンバージョンを分析)、ヘルスケア研究 (複数の医療機関の患者データを匿名化して共同研究)、金融リスク分析 (複数の金融機関の取引データを集約してリスクモデルを構築) です。

コラボレーションと分析ルール

コラボレーションは参加メンバー (企業) とその役割 (データ提供者、分析実行者) で構成されます。各メンバーは自社の S3 上のデータを Glue Data Catalog のテーブルとして登録し、コラボレーションに関連付けます。分析ルールで許可するクエリの種類を制御します。集計ルールでは COUNT、SUM、AVG などの集計関数のみを許可し、個別レコードの出力を禁止します。最小集計単位 (例: 100 レコード以上、最大 500 レコードまで設定可能) を設定し、少数のレコードから個人を特定されるリスクを排除します。リストルールでは特定の条件に合致するレコードのリスト出力を許可しますが、出力可能なカラムを制限できます。

Cryptographic Computing

Clean Rooms ML の Cryptographic Computing は、暗号化されたデータに対して分析を実行する機能です。データ提供者はデータを暗号化した状態で Clean Rooms に登録し、分析実行者は暗号化されたデータに対してクエリを実行します。分析結果のみが復号されて返され、生データは一切公開されません。この技術により、データの機密性を数学的に保証しながら共同分析が可能になります。 Cryptographic Computing は現在、類似性マッチング (2 つのデータセット間の共通レコードの特定) に対応しており、広告のオーディエンスマッチングや顧客リストの突合に活用できます。 データ分析の知見を広げたい場合はAmazon の専門書も活用できます。

Clean Rooms の料金

Clean Rooms の料金はクエリの処理量で課金されます。SQL クエリは処理したデータ量に基づき、1 TB あたり約 5.00 ドルです。Cryptographic Computing は追加料金が発生し、暗号化マッチングの処理量に応じて課金されます。コラボレーションの作成やメンバーの管理に追加料金は発生しません。分析ルールで許可するクエリの種類を制限することで、意図しない大量スキャンを防止し、コストを管理できます。パートナー企業との共同分析では、コスト負担の分担を事前に合意しておくことが重要です。

まとめ

Clean Rooms はデータを共有せずに共同分析を実現するプライバシー保護型のサービスです。分析ルールで許可するクエリを制御し、Cryptographic Computing で暗号化データの分析を可能にします。プライバシー規制が強化される中、企業間のデータコラボレーションの新しい標準となるサービスです。