AWS Data Exchange
Servicio de distribución de datos que permite suscribirse a datasets de terceros a través de AWS Marketplace e incorporarlos directamente en S3 o Redshift
Descripción general
AWS Data Exchange es una plataforma de distribución de datos que permite buscar y suscribirse a datasets publicados por proveedores de datos de terceros a través de AWS Marketplace, incorporándolos directamente en buckets S3 o clusters Redshift. Se ofrecen más de 3,000 productos de datos incluyendo datos de mercados financieros, datos meteorológicos, datos geoespaciales y datos de salud, permitiendo la obtención y actualización de datos mediante API o EventBridge de forma automatizada.
Modelo de distribución de datasets y revisiones
Data Exchange organiza los datos en una jerarquía de productos de datos, datasets y revisiones. Un producto de datos es la unidad de suscripción en el Marketplace, que puede contener uno o más datasets. Cada dataset contiene revisiones que representan versiones puntuales de los datos. Cuando el proveedor publica una nueva revisión, los suscriptores reciben automáticamente la actualización. Los activos dentro de una revisión pueden ser archivos S3, tablas de Redshift o endpoints de API. El modelo de suscripción puede ser gratuito, de pago único o de suscripción recurrente (mensual/anual). Los proveedores definen los términos de uso, incluyendo restricciones de redistribución y uso comercial. Los suscriptores pueden configurar notificaciones automáticas mediante EventBridge cuando se publican nuevas revisiones, activando pipelines de procesamiento de datos automáticamente.
Flujo de publicación de datos como proveedor
Las organizaciones pueden actuar como proveedores de datos en Data Exchange, monetizando sus datasets propietarios. El flujo de publicación incluye: crear un dataset, añadir activos (archivos S3, tablas Redshift o APIs), crear una revisión, y publicar un producto de datos en el Marketplace con descripción, precios y términos de uso. Los proveedores pueden ofrecer muestras gratuitas para que los potenciales suscriptores evalúen la calidad de los datos antes de suscribirse. La función de Data Grants permite compartir datos con cuentas AWS específicas sin pasar por el Marketplace, útil para compartir datos entre socios comerciales o dentro de una organización. Los proveedores reciben informes de uso y métricas de suscripción, y los pagos se procesan a través del sistema de facturación del Marketplace. La función de revisión automática permite programar la publicación de nuevas revisiones de datos de forma periódica, manteniendo los datos actualizados sin intervención manual.
Patrones de obtención de datos vía S3, Redshift y API
Data Exchange soporta tres métodos de entrega de datos. La entrega vía S3 es la más común: los activos se copian directamente al bucket S3 del suscriptor, donde pueden procesarse con Athena, Glue o EMR. La entrega vía Redshift permite acceder a los datos directamente desde queries de Redshift sin necesidad de copiar los datos, mediante Redshift Data Sharing. La entrega vía API permite consultar datos en tiempo real a través de endpoints REST, útil para datos que cambian frecuentemente como precios de mercado o datos meteorológicos actuales. La integración con Lake Formation permite aplicar controles de acceso granulares a los datos recibidos, limitando qué columnas o filas pueden ver diferentes usuarios o equipos. El patrón de pipeline típico es: EventBridge detecta nueva revisión, Lambda copia los activos a S3, Glue Crawler actualiza el catálogo de datos, y los datos están disponibles para consulta en Athena. Para datos financieros con requisitos de baja latencia, la entrega vía API con caché en DynamoDB proporciona acceso en milisegundos.