Amazon Macie

S3 バケット内の機密データ (個人情報、クレジットカード番号など) を機械学習で自動検出し、データセキュリティリスクを可視化するサービス

概要

Amazon Macie は、S3 バケットに保存されたデータを自動的にスキャンし、個人識別情報 (PII)、クレジットカード番号、API キー、パスワードなどの機密データを検出するデータセキュリティサービスです。機械学習と正規表現パターンマッチングを組み合わせて 100 種類以上の機密データタイプを識別でき、カスタムデータ識別子で独自のパターン (社員番号、顧客 ID など) も定義できます。S3 バケットのアクセス設定 (パブリックアクセス、暗号化状態、共有設定) も自動的に評価し、データ漏洩リスクの高いバケットを優先的に可視化します。

2 段階の検出プロセスとカスタム識別子

Macie の機密データ検出は 2 段階で動作します。まず、S3 バケットのインベントリを自動的に作成し、バケットごとのオブジェクト数、サイズ、暗号化状態、パブリックアクセス設定を一覧化します。このインベントリ評価は無料で、データ漏洩リスクの高いバケットを優先的に可視化できます。次に、機密データ検出ジョブを実行すると、指定したバケット内のオブジェクトをサンプリングまたは全件スキャンし、機密データの種類、出現箇所、件数を検出結果 (Finding) として出力します。組み込みの 100 種類以上の検出パターンに加え、カスタムデータ識別子で正規表現と近接キーワード (例: 8 桁の数字を検出し、近接 50 文字以内に「社員番号」があればヒット) を定義することで、誤検知を抑えつつ組織固有の機密データを検出できます。

コンプライアンス監査のためのデータ棚卸し

Macie の最も一般的な活用は、GDPR や PCI DSS の監査に備えたデータ棚卸しです。どの S3 バケットにどのような機密データが保存されているかを定期的にスキャンし、検出結果を Security Hub に集約して一元管理します。Microsoft Purview がマルチクラウド対応の包括的なデータガバナンスプラットフォームであるのに対し、Macie は S3 に特化したシンプルなサービスで、導入の手軽さが強みです。データセキュリティの書籍 (Amazon) でコンプライアンス対応の全体像を学べます。

自動修復パイプラインとコスト管理

Macie の検出結果を EventBridge 経由で Lambda に連携し、機密データが検出されたオブジェクトに自動的に S3 Object Lock を適用したり、バケットのパブリックアクセスを自動的にブロックしたりする自動修復パイプラインを構築できます。検出から修復までを人手を介さず完結させることで、データ漏洩のリスクウィンドウを最小化できます。コスト管理の注意点として、大量のオブジェクトを持つバケットを全件スキャンすると高額になるため (最初の 50 TB は 1 GB あたり 1 ドル)、サンプリング率を設定するか、新規オブジェクトのみを対象とする増分スキャンを活用して、コストと検出精度のバランスを取る設計が重要です。スキャン対象を機密データが存在する可能性の高いバケットに絞り込み、ログバケットや一時ファイルのバケットは除外するのが実務上のベストプラクティスです。

共有するXB!