AWS Lake Formation
データレイクの構築・管理・セキュリティを簡素化するサービス
何ができるか
AWS Lake Formation は、S3 上にデータレイクを構築し、データのインジェスト、カタログ化、セキュリティ管理を一元的に行うサービスです。テーブル・カラムレベルの細かいアクセス制御を提供し、Athena、Redshift、EMR などの分析サービスからのアクセスを統一的に管理します。
どのような場面で使うか
企業のデータレイク構築、複数データソースの統合と分析、データガバナンスの実装、部門間のデータ共有とアクセス制御に利用されます。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
身近な例え
図書館の蔵書管理システムに例えられます。さまざまな出版社 (データソース) から届く本 (データ) を分類・登録 (カタログ化) し、利用者 (分析者) ごとに閲覧可能な本を制御 (アクセス制御) します。
Lake Formation とは
この記事は約 2 分で読めます。 AWS Lake Formation は、データレイクのセットアップと管理を簡素化するサービスです。データレイクとは、構造化・半構造化・非構造化データを一元的に格納する S3 ベースのリポジトリです。Lake Formation はデータのインジェスト、Glue Data Catalog との統合、きめ細かいアクセス制御を提供します。
アクセス制御とデータ共有
Lake Formation の最大の特徴は、テーブル・カラム・行レベルのアクセス制御です。IAM ポリシーだけでは実現が難しいきめ細かいデータアクセス制御を、Lake Formation のパーミッションモデルで統一的に管理できます。データ共有機能で、異なる AWS アカウント間でのデータ共有も安全に行えます。
はじめかた
Lake Formation コンソールでデータレイク管理者を設定し、S3 バケットをデータレイクのロケーションとして登録します。Glue クローラーでデータをカタログ化し、Lake Formation のパーミッションでアクセス権限を設定します。Athena や Redshift Spectrum からクエリを実行すると、Lake Formation のアクセス制御が自動的に適用されます。
Azure・オンプレミスとの比較
AWS の優位点
- テーブル・カラム・行レベルのきめ細かいアクセス制御を統一的に管理可能
- Athena、Redshift、EMR など複数の分析サービスに対して一貫したアクセス制御を適用
- クロスアカウントのデータ共有を安全に実現し、組織全体のデータガバナンスを確立
注意点
- Lake Formation のアクセス制御と IAM ポリシーの両方が適用されるため、権限設計が複雑になる場合がある
- Lake Formation 自体は無料。Glue、S3、Athena などの利用料金が別途発生する
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。