数据市场活用 - 通过 AWS Data Exchange 实现第三方数据的高效获取与利用
解说利用 AWS Data Exchange 获取和活用第三方数据的方法。介绍通过与 S3 集成构建数据管道,以及作为数据提供商发布数据的方法。
第三方数据活用的挑战与 Data Exchange 概述
对于推进数据驱动决策的企业而言,不仅是内部数据,第三方数据的活用也是竞争优势的源泉。然而,与数据提供商的单独签约、数据格式的标准化、分发基础设施的构建需要大量工时。AWS Data Exchange 是一个全托管的数据市场,可高效地搜索、订阅和使用第三方数据。来自 300 多个数据提供商的 3,500 多个数据产品涵盖金融数据、气象数据、地理空间数据、医疗保健数据等。数据以文件集、API、Amazon Redshift 表、S3 对象等多种格式分发,可无缝集成到现有数据管道中。在本地环境获取第三方数据时需要构建 FTP 服务器、开发 API 客户端、进行数据格式转换处理,而 Data Exchange 将这些复杂性抽象化。
数据产品的订阅与自动分发
Data Exchange 的订阅模型可自动化数据产品的获取和更新。当数据提供商发布新修订版时,会自动通知订阅者,通过与 EventBridge 的联动可触发向 S3 的自动导出作业。有免费和付费的数据产品,付费产品通过 AWS Marketplace 统一计费。数据产品的预览功能允许在订阅前确认数据样本,评估质量和适用性。通过修订版管理可访问过去的数据版本,用于时间序列分析和确保可重现性。API 格式的数据产品可通过 API Gateway 实时获取数据,实现与应用程序的直接集成。订阅 Data Exchange 数据集并导出到 S3 的 CLI 示例:使用 aws dataexchange create-job --type EXPORT_REVISIONS_TO_S3 --details ExportRevisionsToS3={DataSetId=dataset-id,RevisionDestinations=[{RevisionId=rev-id,Bucket=my-bucket,KeyPattern="${Asset.Name}"}]} 创建作业,然后使用 aws dataexchange start-job --job-id job-id 执行。
S3 集成与数据管道构建
从 Data Exchange 获取的数据可直接导出到 S3,无缝集成到现有数据湖或数据管道中。S3 导出作业可通过 API 或 EventBridge 触发器自动执行,可构建以新数据修订版发布为起点的自动管道。导出的数据通过 Glue Crawler 编目,可用于 Athena 的即席查询或 Redshift Spectrum 的分析。通过与 Lake Formation 的集成,可细粒度控制对第三方数据的访问权限,确保数据治理。使用 Step Functions 进行编排,可自动化数据获取、转换、质量检查、加载的整个工作流。通过与 QuickSight 的联动,可构建结合第三方数据和内部数据的仪表板,加速业务洞察的创造。 如果想全面学习第三方数据活用的设计模式,请参考技术书籍(Amazon)。
作为数据提供商的发布与变现
Data Exchange 不仅可作为数据消费者使用,还提供作为数据提供商发布数据产品并实现变现的功能。可将自有数据集发布到 Data Exchange,通过 AWS Marketplace 向其他 AWS 用户销售。定价可灵活设置为月度订阅、年度订阅、自定义价格等。发布数据产品需要进行提供商注册,经过 AWS Marketplace 的审核流程后在目录中上架。通过修订版管理可设置数据更新频率(每日、每周、每月),定期向订阅者分发最新数据。通过访问日志可追踪哪个订阅者在何时访问了数据,用于使用情况分析和合规应对。数据产品的分类和标签使潜在订阅者更容易发现数据。
Data Exchange 的费用
Data Exchange 本身免费使用,成本为订阅的数据产品价格。数据产品价格由提供商设定,从免费数据集到月费数千美元的高级数据广泛提供。导出到 S3 不产生额外费用。作为数据提供商发布产品时,AWS Marketplace 的手续费将从销售额中扣除。
总结 - 数据市场的战略活用
AWS Data Exchange 作为高效获取和活用第三方数据的数据市场,加速数据驱动的决策。通过自动分发和修订版管理实现数据更新自动化、通过 S3 集成无缝连接现有数据管道、作为数据提供商的变现功能,是构建数据生态系统不可或缺的要素。利用 EventBridge 和 Step Functions 的自动管道,可完全自动化从第三方数据获取到分析的工作流。为了最大化数据价值,值得考虑利用 Data Exchange 构建数据战略。