Amazon DataZone のアイコン

Amazon DataZone

データの発見・共有・ガバナンスを統合するデータ管理サービス

何ができるか

Amazon DataZone は、組織内のデータを発見・共有・管理するためのデータガバナンスサービスです。データカタログ機能により、S3、Redshift、Glue などに散在するデータ資産を一元的に検索・閲覧できます。データの所有者と利用者の間でアクセス権限を安全に管理し、部門横断でのデータ活用を促進します。

どのような場面で使うか

大企業で各部門が保有するデータを全社的に共有・活用したい場合や、データレイクに蓄積されたデータのカタログ化とアクセス管理を行いたい場合に利用されています。データサイエンティストが分析に必要なデータセットを自分で検索・申請し、承認フローを経てアクセスを得るといったセルフサービス型のデータ活用を実現します。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。

身近な例え

社内図書館の司書に例えるとわかりやすいでしょう。組織内のさまざまな部門が持つデータ (蔵書) を、司書 (DataZone) がカタログに整理します。利用者は蔵書検索システムで必要なデータを見つけ、貸出申請 (アクセスリクエスト) を行い、承認を得てデータを利用できます。

DataZone とは

Amazon DataZone は、組織全体のデータ資産を統合的に管理するサービスです。データがどこに保存されているか、どのような内容か、誰がアクセスできるかを一元的に把握できます。データの生産者 (所有者) と消費者 (利用者) をつなぐプラットフォームとして機能し、データドリブンな意思決定を支援します。

データカタログとガバナンス

DataZone のデータカタログは、S3 バケット、Redshift テーブル、Glue データカタログなどのデータソースを自動的にスキャンし、メタデータ (データの名前、型、説明など) を収集します。ビジネス用語集を定義してデータに意味を付与したり、データの品質ルールを設定したりすることで、組織全体で統一されたデータ理解を促進します。

アクセス管理とコラボレーション

DataZone では、データの所有者がアクセスポリシーを設定し、利用者からのアクセスリクエストを承認・拒否するワークフローを構築できます。プロジェクト単位でチームを編成し、必要なデータセットへのアクセスを管理します。Lake Formation や IAM と連携して、きめ細かいアクセス制御を実現します。

はじめかた

DataZone を使い始めるには、DataZone コンソールでドメイン (管理単位) を作成します。次にデータソースを登録し、メタデータの収集を開始します。プロジェクトを作成してチームメンバーを招待し、データカタログから必要なデータを検索・サブスクライブすることで、データ活用を開始できます。

注意点

  • DataZone はデータの保存場所を変更せず、メタデータとアクセス権限を管理するサービスである点に注意。データ自体は S3 や Redshift に残る
  • Lake Formation との連携が前提となるケースが多いため、Lake Formation の基本設定を先に済ませておくとスムーズ
  • ドメインやプロジェクトの設計は組織構造に合わせて慎重に行うこと。後からの変更は影響範囲が大きい

さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。