Amazon DataZone

データカタログ、アクセスガバナンス、セルフサービスのデータ共有をドメインベースで統合管理するエンタープライズデータポータル

概要

Amazon DataZone は、組織内のデータ資産を発見・共有・ガバナンスするためのデータ管理サービスです。ビジネスユーザーとデータエンジニアの双方が利用できるポータルを提供し、データの検索、アクセス申請、承認ワークフローをセルフサービスで完結させます。S3、Redshift、Glue Data Catalog、RDS などの AWS データソースに加え、サードパーティのデータソースも統合でき、組織全体のデータ資産を一元的にカタログ化します。Lake Formation との連携により、テーブル・カラムレベルのきめ細かなアクセス制御を自動適用します。

ドメインとプロジェクトによるデータガバナンス

DataZone のガバナンス構造は、ドメイン、プロジェクト、環境の 3 階層で設計されています。ドメインは組織のデータガバナンスの最上位境界で、通常は企業全体または事業部門単位で作成します。ドメイン内にはビジネスデータカタログ、用語集 (ビジネスグロッサリー)、メタデータフォームが格納され、データ資産の分類と意味付けの基盤となります。プロジェクトはデータの生産者 (Producer) と消費者 (Consumer) のチーム単位で作成し、メンバーシップとロールベースのアクセス制御を管理します。環境はプロジェクトに紐づく技術的なリソースの集合で、Redshift クラスター、Athena ワークグループ、Glue データベースなどの接続先を定義します。データオーナーはプロジェクト内でデータアセットを公開し、他のプロジェクトのメンバーがサブスクリプション申請を通じてアクセス権を取得する流れです。承認ワークフローはカスタマイズ可能で、自動承認、データオーナー承認、管理者承認の段階を設定できます。

データアセットの公開とサブスクリプション

DataZone でデータを共有するには、まずデータソースを登録してメタデータを自動収集します。Glue Data Catalog のテーブル、Redshift のスキーマ、S3 のデータセットなどをデータソースとして接続すると、テーブル名、カラム定義、データ型、統計情報が自動的にカタログに取り込まれます。データオーナーはカタログに取り込まれたアセットにビジネスメタデータ (説明文、タグ、ビジネス用語、データ品質ルール) を付与し、公開 (Publish) 操作でドメイン内の他プロジェクトから検索可能にします。データ消費者はポータルの検索画面からアセットを発見し、サブスクリプション申請を送信します。申請が承認されると、Lake Formation のアクセス権限が自動的に付与され、消費者は自分のプロジェクト環境 (Athena や Redshift) から直接データにクエリを実行できます。この一連のフローにより、データエンジニアが手動で IAM ポリシーや Lake Formation 権限を設定する運用負荷が大幅に削減されます。

ビジネスデータカタログと検索体験

DataZone のビジネスデータカタログは、技術的なメタデータとビジネスコンテキストを統合した検索可能なデータ資産目録です。カタログには自然言語による検索機能が備わっており、ビジネスユーザーが「月次売上データ」「顧客セグメント」といったビジネス用語で検索すると、関連するテーブルやデータセットが表示されます。ビジネスグロッサリー機能では、組織固有の用語 (KPI の定義、指標の計算方法、データ分類の基準など) を登録し、データアセットに紐づけることで、データの意味と文脈を組織全体で統一できます。メタデータフォームはカスタムフィールドを定義する仕組みで、データの鮮度、更新頻度、データオーナー、機密レベルなどの属性をアセットに付与します。データ品質ルールとの連携により、各アセットの品質スコアがカタログ上に表示され、消費者はデータの信頼性を事前に評価できます。カタログのアクティビティログから、どのデータアセットが頻繁に利用されているか、どのプロジェクトがデータを消費しているかを分析でき、データ資産の価値評価にも活用できます。

共有するXB!