AWS Data Exchange
通过 AWS Marketplace 订阅第三方数据集并直接导入 S3 或 Redshift 的数据流通服务
概述
AWS Data Exchange 是一个数据流通平台,可通过 AWS Marketplace 搜索和订阅第三方数据提供商发布的数据集,并直接导入 S3 存储桶或 Redshift 集群。提供金融市场数据、气象数据、地理空间数据、医疗数据等 3,000 多种数据产品,数据获取和更新可通过 API 或事件驱动自动化。还具备作为数据提供商发布和销售数据的功能。
数据集与修订版的分发模型
Data Exchange 的数据结构由数据集、修订版和资产三层组成。数据集是逻辑数据单位(如日频股价数据),修订版是该时间点的快照(如 2026 年 3 月份),资产是修订版内的单个文件(如 CSV、Parquet)。提供商发布新修订版后,订阅者自动获得该修订版的访问权限。分发类型有 S3 快照、API Gateway 的 API 访问、Redshift 数据共享和 Lake Formation 表 4 种,根据数据性质和使用模式选择。S3 快照适合批量分析,API 访问适合实时查询。通过与 EventBridge 集成,可在新修订版发布时触发 Lambda 函数,自动执行数据导入管道。
作为提供商的数据发布流程
Data Exchange 不仅支持数据消费,还可作为提供商发布和销售数据。数据产品发布流程为:首先创建数据集并上传资产,确定修订版。然后在 AWS Marketplace 注册为数据产品,定义定价(月度订阅、年度或免费)和使用条款。通过 Marketplace 审核后,所有 AWS 用户即可搜索和订阅该数据产品。提供商承诺更新频率(日频、周频、月频),按计划发布新修订版。修订版发布可通过 API 自动化,通常作为数据管道的最后一步嵌入。订阅管理可追踪谁在访问数据,使用报告可确认收入。私有数据产品功能可仅向特定 AWS 账户发布,用于集团企业间或合作伙伴间的数据共享。
通过 S3、Redshift 和 API 获取数据的模式
订阅者获取数据最基本的模式是 S3 导出作业。指定订阅数据集的修订版,将资产导出到自己的 S3 存储桶。导出作业异步执行,完成时发出 EventBridge 事件,可自动触发后续 ETL 处理。Redshift 数据共享类型的数据产品可直接查询提供商的 Redshift 集群数据,无需复制数据。分析工作负载中,还可通过 Redshift Spectrum 执行将 S3 导出数据与 Redshift 数据共享数据联合的查询。API 类型数据产品通过 API Gateway 端点实时获取数据,适合汇率或股价实时行情等需要即时访问最新数据的场景。Lake Formation 类型注册为 Glue 数据目录中的表,可从 Athena 或 EMR 直接查询。