AWS Clean Rooms ML でプライバシー保護型 ML - データを共有せずにモデルを構築
Clean Rooms ML によるルックアライクモデルの構築、差分プライバシーの適用、広告ターゲティングへの活用を解説します。
Clean Rooms ML の概要
Clean Rooms ML は Clean Rooms 内でプライバシーを保護しながら ML モデルを構築するサービスで、数百万レコード規模のデータセットに対応します。広告主とパブリッシャーが互いのデータを直接見ることなく、共同でルックアライクモデルを構築し、類似ユーザーのセグメントを生成します。差分プライバシーの技術で個人データの保護を数学的に保証しながら、マーケティング効果を最大化します。
ルックアライクモデルと差分プライバシー
ルックアライクモデルは「既存の優良顧客に類似する新規ユーザー」を特定する ML モデルです。広告主がコンバージョン済みユーザーのリスト (シードデータ) を提供し、パブリッシャーのオーディエンスデータから類似ユーザーを抽出します。差分プライバシーはモデルの出力にノイズを加え、個人レベルのデータが推測されないことを数学的に保証します。生成されたルックアライクセグメントは広告キャンペーンのターゲティングに使用し、コンバージョン率の向上を図ります。
コラボレーションの設計
Clean Rooms のコラボレーションでは、参加者ごとにデータの提供範囲と分析ルールを定義します。分析ルールで許可するクエリの種類 (集約のみ、リスト出力可否)、最小集約単位 (例: 100 レコード以上の集約のみ許可) を設定し、個人レベルのデータ抽出を防止します。 ML モデルの構築では、広告主がシードデータ (コンバージョン済みユーザー) を提供し、パブリッシャーのオーディエンスデータと照合してルックアライクセグメントを生成します。差分プライバシーのイプシロン値を調整して、プライバシー保護の強度とモデル精度のトレードオフを制御します。出力結果はコラボレーションの分析ルールに従い、個人を特定できない集約レベルでのみ返されます。 Clean Rooms に関する実践的な手法はAmazon の関連書籍でも確認できます。
Clean Rooms ML の料金
Clean Rooms の料金はクエリの処理量 (スキャンしたデータ量) で課金されます。ML モデルの構築は追加料金が発生し、ルックアライクモデルのトレーニングとセグメント生成で別途課金されます。差分プライバシーを有効にすると、ノイズ注入の計算コストが加算されます。コラボレーションの参加者間でコスト負担を分担する設計が一般的で、クエリを実行する側が処理料金を負担します。データ量が大きい場合は、分析対象の期間やカラムを絞り込んでスキャン量を削減することでコストを最適化します。S3 のデータ配置を Parquet 形式でパーティション化しておくと、クエリのスキャン効率が向上します。
まとめ
Clean Rooms ML はデータを共有せずにプライバシー保護型の ML モデルを構築するサービスです。差分プライバシーのイプシロン値で保護強度とモデル精度のトレードオフを制御し、分析ルールで個人レベルのデータ抽出を防止します。広告主とパブリッシャー間のルックアライクセグメント生成を、データの直接共有なしに安全に実現します。