AWS Lake Formation で構築するデータレイク - きめ細かいアクセス制御とデータカタログ
Lake Formation によるデータレイクの構築、列・行レベルのアクセス制御、Glue Data Catalog との統合を解説します。
Lake Formation の概要
この記事は約 3 分で読めます。 Lake Formation は S3 上のデータレイクの構築・管理・セキュリティを簡素化するサービスです。従来、S3 のデータレイクに対するアクセス制御は S3 バケットポリシーと IAM ポリシーの組み合わせで管理していましたが、列レベルや行レベルの制御が困難でした。Lake Formation はデータベース、テーブル、列、行の各レベルで権限を管理し、Athena、Redshift Spectrum、EMR からのクエリに統一的に適用します。
この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
アクセス制御とタグベース管理
Lake Formation の権限モデルでは、プリンシパル (IAM ユーザー、ロール) に対してデータベース、テーブル、列の SELECT、INSERT、DELETE 権限を付与します。行レベルフィルターで特定の条件に合致する行のみにアクセスを制限でき、部門ごとに自部門のデータのみを参照させる制御が可能です。LF-TBAC ではデータにタグ (例: sensitivity=high) を付与し、プリンシパルに対してタグベースの権限を設定します。新しいテーブルが追加された際にも、タグが一致すれば自動的に権限が適用されます。
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。
まとめ
Lake Formation は S3 データレイクにきめ細かいアクセス制御を提供するサービスです。列・行レベルの権限管理と LF-TBAC で、大規模なデータレイクのセキュリティを効率的に管理できます。
AWS の優位点
- S3 上のデータレイクに対して列レベル・行レベル・セルレベルのきめ細かいアクセス制御を提供する
- Glue Data Catalog と統合し、テーブルとカラムの権限を Lake Formation で一元管理できる
- ブループリントでデータソース (RDS、DynamoDB) からデータレイクへの取り込みパイプラインを自動構築できる
- タグベースアクセス制御 (LF-TBAC) でデータの分類タグに基づく動的な権限管理が可能
- Athena、Redshift Spectrum、EMR からのクエリに対して統一的なアクセス制御を適用できる