Amazon DataZone で実現するデータガバナンス - データの発見・共有・アクセス制御
ドメインベースのデータカタログを構築し、サブスクリプションワークフローでデータの発見・共有・アクセス制御を実現する手法を紹介します。
DataZone の概要
DataZone は組織内のデータの発見・共有・ガバナンスを統合するサービスで、数千のデータアセットと数百のユーザーを管理できます。データプロデューサーがデータアセットをカタログに公開し、データコンシューマーがカタログから必要なデータを検索してサブスクリプションを申請します。承認後、コンシューマーは Athena や Redshift から直接データにアクセスできます。
ドメインとサブスクリプション
ドメインは事業部門やチームに対応する論理的なグループで、データの所有権と管理責任を明確化します。サブスクリプションワークフローでは、コンシューマーがデータアセットへのアクセスを申請し、プロデューサーまたは管理者が承認します。承認後、Lake Formation の権限が自動的に付与され、コンシューマーは Athena からクエリを実行できます。
データ品質とカタログ管理
DataZone のデータ品質ルールで、公開されるデータアセットの品質を自動検証します。完全性 (NULL 値の割合)、一意性 (重複レコード)、鮮度 (最終更新日) などのルールを定義し、品質スコアをカタログに表示します。ビジネス用語集 (グロッサリー) で組織共通の用語定義を管理し、データアセットにタグ付けすることで、技術的なテーブル名だけでなくビジネス上の意味でデータを検索できます。メタデータフォームでデータの所有者、更新頻度、機密レベルなどのカスタム属性を定義し、ガバナンスに必要な情報をデータアセットに付与します。 Glue データカタログとの統合で、既存のテーブル定義を DataZone に自動インポートできます。 DataZone の設計パターンを網羅的に学ぶなら、技術書 (Amazon)を参照してください。
DataZone の料金
DataZone の料金はカタログに登録されたデータアセット数とメタデータ API コール数で構成されます。データアセットは 1 つあたり月額約 0.10 ドルで、メタデータ API は 100 万リクエストあたり約 4.25 ドルです。サブスクリプションの承認・管理は追加料金なしで利用できます。大規模な組織ではデータアセット数が数千に達するため、不要なアセットの定期的な棚卸しでコストを管理します。Glue データカタログとの統合で既存のメタデータを活用し、重複したカタログ管理を避けることで運用コストも削減できます。
まとめ
DataZone はデータの発見・共有・ガバナンスを統合し、組織全体でデータの価値を最大化するサービスです。ドメインベースの所有権管理でデータの責任を明確化し、サブスクリプションワークフローで承認ベースのデータ共有を実現します。データ品質ルールとビジネス用語集で、カタログの信頼性と検索性を向上させます。