Amazon Macie による機密データの自動検出 - S3 バケットの PII スキャンとデータ保護
Amazon Macie による S3 バケット内の機密データ (PII、金融情報、認証情報) の自動検出と、検出結果に基づくデータ保護戦略を解説します。
Macie の機能と検出対象
Macie は S3 バケット内のデータを自動的にスキャンし、機密データの所在を可視化するサービスです。検出対象は、個人識別情報 (氏名、住所、電話番号、メールアドレス、マイナンバー)、金融情報 (クレジットカード番号、銀行口座番号)、認証情報 (AWS アクセスキー、SSH 秘密鍵、パスワード)、医療情報 (保険番号) など、100 種類以上のデータタイプに対応しています。検出には機械学習モデルとパターンマッチング (正規表現) の両方を使用し、コンテキストを考慮した高精度な検出を実現します。
スキャン設計とカスタムデータ識別子
Macie のスキャンジョブは、対象バケット、スキャン頻度 (ワンショットまたは定期)、サンプリング深度を設定して実行します。全オブジェクトのスキャンはコストが高いため、まずサンプリング (例: 10%) でスキャンし、機密データが検出されたバケットに対してフルスキャンを実行する段階的なアプローチが有効です。カスタムデータ識別子では、正規表現と近接キーワードを組み合わせて独自の検出パターンを定義できます。例えば、社内の従業員 ID (EMP-[0-9]{6}) を検出するパターンや、特定のプロジェクトコードを含むドキュメントを識別するパターンを作成できます。
検出結果の活用と自動対応
Macie の検出結果は Security Hub に自動送信され、他のセキュリティサービスの検出結果と統合管理できます。 EventBridge との連携で、機密データの検出時に自動対応ワークフローを構築できます。例えば、パブリックアクセス可能なバケットで PII が検出された場合に、 Lambda 関数でバケットのパブリックアクセスをブロックし、 SNS でセキュリティチームに通知するフローを自動化できます。 Macie のダッシュボードでは、組織全体の S3 バケットのセキュリティ態勢 (暗号化率、パブリックアクセス率、共有バケット数) を一覧でき、リスクの高いバケットを優先的に対処できます。 Macie について体系的に学びたい方は、関連書籍 (Amazon)も参考になります。
Macie の料金
Macie の料金はバケット評価 (月額約 0.10 ドル/バケット) と機密データ検出 (最初の 50,000 GB は 1 GB あたり約 1.00 ドル) で構成されます。全バケットのフルスキャンはコストが高いため、まずバケット評価で暗号化やパブリックアクセスの状態を確認し、リスクの高いバケットに対してのみ機密データ検出ジョブを実行する段階的なアプローチが有効です。サンプリング深度を 10〜20% に設定して初回スキャンを実行し、検出結果に基づいてフルスキャンの対象を絞り込むことでコストを最適化できます。30 日間の無料トライアルで実際のコストを確認してから本番導入します。
まとめ
Macie は S3 に保存された機密データの所在を自動的に可視化し、データ保護のリスクを特定するサービスです。GDPR や個人情報保護法への対応で、組織内のどこに個人データが存在するかを把握する必要がある場合に特に有効です。EventBridge との連携で検出から対応までを自動化し、継続的なデータ保護を実現できます。