AWS Data Exchange

サードパーティのデータセットを AWS Marketplace 経由でサブスクライブし、S3 や Redshift に直接取り込むデータ流通サービス

概要

AWS Data Exchange は、サードパーティのデータプロバイダーが公開するデータセットを AWS Marketplace 経由で検索・サブスクライブし、S3 バケットや Redshift クラスターに直接取り込めるデータ流通プラットフォームです。金融市場データ、気象データ、地理空間データ、ヘルスケアデータなど 3,000 以上のデータ製品が提供されており、データの取得・更新を API やイベント駆動で自動化できます。データプロバイダーとしてデータを公開・販売する機能も備えています。

データセットとリビジョンの配信モデル

Data Exchange のデータ構造は、データセット、リビジョン、アセットの 3 層で構成されます。データセットは論理的なデータの単位 (例: 日次株価データ) で、リビジョンはその時点のスナップショット (例: 2026 年 3 月分) を表し、アセットはリビジョン内の個別ファイル (例: CSV、Parquet) です。プロバイダーが新しいリビジョンを公開すると、サブスクライバーは自動的にそのリビジョンにアクセスできるようになります。配信タイプは S3 スナップショット、API Gateway 経由の API アクセス、Redshift データシェア、Lake Formation テーブルの 4 種類があり、データの性質と利用パターンに応じて選択します。S3 スナップショットはバッチ分析向け、API アクセスはリアルタイムクエリ向けに適しています。EventBridge との統合により、新しいリビジョンが公開されたタイミングで Lambda 関数をトリガーし、データの取り込みパイプラインを自動実行する構成が構築できます。

プロバイダーとしてのデータ公開フロー

Data Exchange ではデータの消費者だけでなく、プロバイダーとしてデータを公開・販売することも可能です。データ製品の公開フローは、まずデータセットを作成してアセットをアップロードし、リビジョンを確定させます。次に AWS Marketplace にデータ製品として登録し、価格設定 (月額サブスクリプション、年額、無料) と利用規約を定義します。Marketplace の審査を通過すると、全 AWS ユーザーがデータ製品を検索・サブスクライブできるようになります。プロバイダーは更新頻度 (日次、週次、月次) をコミットし、スケジュールに従って新しいリビジョンを公開します。リビジョンの公開は API で自動化でき、データパイプラインの最終ステップとして組み込むのが一般的です。サブスクリプション管理では、誰がデータにアクセスしているかを追跡でき、利用状況レポートで収益を確認できます。プライベートデータ製品として特定の AWS アカウントにのみ公開する機能もあり、グループ企業間やパートナー間のデータ共有に活用されています。

S3・Redshift・API 経由のデータ取得パターン

サブスクライバーがデータを取得する最も基本的なパターンは、S3 エクスポートジョブです。サブスクライブしたデータセットのリビジョンを指定し、自分の S3 バケットにアセットをエクスポートします。エクスポートジョブは非同期で実行され、完了時に EventBridge イベントが発行されるため、後続の ETL 処理を自動トリガーできます。Redshift データシェアタイプのデータ製品では、プロバイダーの Redshift クラスターからデータを直接クエリでき、データのコピーが不要です。分析ワークロードでは、Redshift Spectrum 経由で S3 にエクスポートしたデータと Redshift データシェアのデータを結合するクエリも実行できます。API タイプのデータ製品は、API Gateway のエンドポイントを通じてリアルタイムにデータを取得します。為替レートや株価のリアルタイムフィードなど、最新データへの即時アクセスが必要なユースケースに適しています。Lake Formation タイプでは、Glue データカタログにテーブルとして登録され、AthenaEMR から直接クエリできます。

共有するXB!