Aprovechamiento de datos de terceros con AWS Data Exchange - Adquisición de datos y gestión de suscripciones
Adquiera productos de datos de terceros a través de Marketplace y construya pipelines de entrega automática a S3. También se presentan técnicas de productización y monetización de datos propios.
Funcionamiento de Data Exchange
AWS Data Exchange ofrece más de 3,500 productos de datos y es un servicio para adquirir y distribuir datasets de terceros en AWS. Los proveedores de datos publican productos de datos y los consumidores se suscriben, integrado con AWS Marketplace. Tradicionalmente, la adquisición de datos de terceros requería negociaciones contractuales individuales, desarrollo de integraciones API y conversión de formatos de datos, pero Data Exchange estandariza todo esto. Los datos se proporcionan en formatos de archivos S3, API, tablas de Amazon Redshift y tablas de AWS Lake Formation, y después de suscribirse puede acceder directamente desde su propia cuenta de AWS.
Adquisición de datos e ingesta automática
Busque el dataset deseado en la categoría de datos de AWS Marketplace y contrate una suscripción. También se ofrecen muchos datasets gratuitos para comenzar con pruebas. Cuando se publica una nueva revisión (versión actualizada) de un dataset suscrito, se envía un evento a EventBridge. Puede construir un pipeline de ingesta automática que recibe el evento con una función Lambda y exporta los datos de la nueva revisión a S3. Los datos entregados a S3 pueden consultarse directamente con Athena, transformarse con Glue ETL y cargarse en Redshift, o usarse como datos de entrenamiento para SageMaker.
Publicación y monetización de productos de datos
También es posible publicar datos propios en Data Exchange y venderlos a través de AWS Marketplace. Los productos de datos se componen de datasets, revisiones y assets (archivos o APIs reales). Los precios pueden ser por suscripción (mensual/anual) o facturación por uso por revisión. AWS Marketplace gestiona la administración de contratos, facturación y procesamiento de pagos, permitiendo a los proveedores de datos concentrarse en la calidad y actualización de los datos. Antes de la publicación, es necesario realizar verificaciones de calidad de datos y privacidad para confirmar que no contienen información personal. Para un estudio completo de patrones de diseño de Data Exchange, consulte libros técnicos (Amazon).
Precios de Data Exchange
Data Exchange en sí es gratuito; el costo es el precio de los productos de datos suscritos. Los precios de los productos de datos los establece el proveedor, desde datasets gratuitos hasta datos premium de miles de dólares mensuales. No hay cargos adicionales por exportar datos a S3, pero se requieren cargos de almacenamiento de S3 por separado. Al publicar productos como proveedor de datos, se deduce una comisión de AWS Marketplace del porcentaje de ventas. Se recomienda un enfoque gradual: primero comprender el mecanismo de Data Exchange con datasets gratuitos y luego considerar suscripciones de pago para datos con valor comercial confirmado.
Resumen
Data Exchange es un servicio que estandariza la adquisición y distribución de datos de terceros. Integrado con AWS Marketplace, entrega datos financieros, meteorológicos, geoespaciales y más directamente a S3. Reciba actualizaciones automáticas con suscripciones de datasets y analice inmediatamente con Athena o Redshift. También puede monetizar datos propios como proveedor de datos.