AWS Data Exchange

通过 AWS Marketplace 订阅第三方数据集并直接导入 S3 或 Redshift 的数据流通服务

概述

AWS Data Exchange 是一个数据流通平台,可通过 AWS Marketplace 搜索和订阅第三方数据提供商发布的数据集,并直接导入 S3 存储桶或 Redshift 集群。提供金融市场数据、气象数据、地理空间数据、医疗数据等 3,000 多种数据产品,数据获取和更新可通过 API 或事件驱动自动化。还具备作为数据提供商发布和销售数据的功能。

数据集与修订版的分发模型

Data Exchange 的数据结构由数据集、修订版和资产三层组成。数据集是逻辑数据单位(如日频股价数据),修订版是该时间点的快照(如 2026 年 3 月份),资产是修订版内的单个文件(如 CSV、Parquet)。提供商发布新修订版后,订阅者自动获得该修订版的访问权限。分发类型有 S3 快照、API Gateway 的 API 访问、Redshift 数据共享和 Lake Formation 表 4 种,根据数据性质和使用模式选择。S3 快照适合批量分析,API 访问适合实时查询。通过与 EventBridge 集成,可在新修订版发布时触发 Lambda 函数,自动执行数据导入管道。

作为提供商的数据发布流程

Data Exchange 不仅支持数据消费,还可作为提供商发布和销售数据。数据产品发布流程为:首先创建数据集并上传资产,确定修订版。然后在 AWS Marketplace 注册为数据产品,定义定价(月度订阅、年度或免费)和使用条款。通过 Marketplace 审核后,所有 AWS 用户即可搜索和订阅该数据产品。提供商承诺更新频率(日频、周频、月频),按计划发布新修订版。修订版发布可通过 API 自动化,通常作为数据管道的最后一步嵌入。订阅管理可追踪谁在访问数据,使用报告可确认收入。私有数据产品功能可仅向特定 AWS 账户发布,用于集团企业间或合作伙伴间的数据共享。

通过 S3、Redshift 和 API 获取数据的模式

订阅者获取数据最基本的模式是 S3 导出作业。指定订阅数据集的修订版,将资产导出到自己的 S3 存储桶。导出作业异步执行,完成时发出 EventBridge 事件,可自动触发后续 ETL 处理。Redshift 数据共享类型的数据产品可直接查询提供商的 Redshift 集群数据,无需复制数据。分析工作负载中,还可通过 Redshift Spectrum 执行将 S3 导出数据与 Redshift 数据共享数据联合的查询。API 类型数据产品通过 API Gateway 端点实时获取数据,适合汇率或股价实时行情等需要即时访问最新数据的场景。Lake Formation 类型注册为 Glue 数据目录中的表,可从 AthenaEMR 直接查询。

共有するXB!