Construcción de un almacén de datos en la nube con Amazon Redshift - Elección entre Serverless y RA3

Conozca los criterios para elegir entre clústeres Serverless y RA3 provisionados, y cómo prevenir silos de datos mediante el uso compartido de datos y la integración con data lakes a través de Spectrum.

約 4 分で読めます最終更新: 2025-12-31

Descripción general de la arquitectura de Redshift

Redshift es un almacén de datos en la nube basado en almacenamiento columnar y una arquitectura de procesamiento masivamente paralelo (MPP). El almacenamiento columnar lee solo las columnas necesarias para las consultas analíticas, reduciendo drásticamente la E/S en comparación con los sistemas RDBMS orientados a filas. El nodo líder se encarga del análisis de consultas y la generación de planes de ejecución, mientras que los nodos de cómputo realizan el procesamiento paralelo de datos. Las instancias RA3 separan el cómputo del almacenamiento, con los datos almacenados en Redshift Managed Storage (RMS) basado en S3. Los datos de acceso frecuente se almacenan en caché en SSD locales, por lo que no es necesario preocuparse por la latencia de lectura desde S3.

Elección entre Serverless y clústeres provisionados

Redshift Serverless escala automáticamente la capacidad en incrementos de RPU (Redshift Processing Unit) y no genera costos cuando no se ejecutan consultas. Es ideal para cargas de trabajo intermitentes como consultas periódicas de paneles de BI, análisis ad-hoc y entornos de desarrollo/pruebas. Por otro lado, los clústeres provisionados (RA3) son adecuados para cargas de trabajo que funcionan de forma continua. Para entornos de producción con ejecución continua de consultas las 24 horas, la combinación de RA3 con instancias reservadas puede ser más rentable que Serverless. Como regla general, si el tiempo diario de ejecución de consultas es inferior a 8 horas, Serverless es la mejor opción; si supera las 8 horas, los clústeres provisionados RA3 son más económicos.

Uso compartido de datos e integración con data lakes mediante Spectrum

El uso compartido de datos es una función que permite compartir datos en vivo en tiempo real entre clústeres de Redshift. Un clúster productor crea un recurso compartido de datos y un clúster consumidor lo referencia. No se produce copia de datos y el consumidor siempre ve los datos más recientes del productor. Esto es efectivo cuando los departamentos operan clústeres independientes pero necesitan compartir datos maestros comunes. Redshift Spectrum permite ejecutar consultas SQL directamente sobre datos almacenados en S3. Combinado con formatos columnares como Parquet u ORC, puede analizar data lakes a escala de petabytes sin cargar datos en Redshift. Utilizando el Glue Data Catalog como almacén de metadatos, tanto Redshift como Athena pueden consultar las mismas definiciones de tablas. Para conocimientos prácticos sobre Redshift, también puede explorar libros relacionados en Amazon.

Precios de Redshift

Redshift Serverless se factura según el uso de RPU (Redshift Processing Unit), con un RPU base a partir de 8 y un costo aproximado de 0,375 dólares por hora de RPU. No se aplican cargos cuando no se ejecutan consultas. Para clústeres provisionados, RA3.xlplus cuesta aproximadamente 1,086 dólares por nodo por hora (alrededor de 782 dólares/mes), con descuentos de instancias reservadas de hasta el 64%. Redshift Managed Storage cuesta aproximadamente 0,024 dólares por GB al mes. Si la ejecución diaria de consultas es inferior a 8 horas, Serverless es más económico; para cargas de trabajo continuas que superan las 8 horas, los clústeres provisionados RA3 son la mejor opción.

Resumen

Redshift es un almacén de datos en la nube que ofrece análisis de alto rendimiento sobre datos a escala de petabytes. Un enfoque gradual de comenzar con Serverless y migrar a clústeres provisionados a medida que crecen las cargas de trabajo es efectivo. Aprovechando el uso compartido de datos y Spectrum, puede prevenir silos de datos y lograr análisis unificado en todo su data lake.

Uso práctico de Amazon Quick - Casos de uso por departamento y patrones de diseño para automatización de flujos de trabajoPresentamos escenarios de uso concretos para departamentos de ventas, TI y finanzas, así como patrones de diseño para notificaciones, aprobaciones y flujos de trabajo de múltiples etapas con Quick Flows.Visualización de dashboards BI - Plataforma de decisiones basada en datos con Amazon QuickSightExplicamos la construcción de dashboards BI interactivos con Amazon QuickSight y una plataforma de análisis de datos serverless con integración Athena. Presentamos la visualización de alta velocidad con el motor SPICE y métodos prácticos para compartir insights en toda la organización.Construcción de redes blockchain - Aprovechamiento de libros mayores distribuidos con Amazon Managed Blockchain y QLDBExplicamos la construcción de redes blockchain con Amazon Managed Blockchain y el uso de Amazon QLDB como base de datos de libro mayor verificable. Presentamos casos de uso prácticos como gestión de cadena de suministro y transparencia en transacciones financieras.Colaboración de datos con preservación de privacidad con AWS Clean RoomsEjecute análisis conjuntos entre múltiples empresas sin compartir ni copiar datos. Aprenda sobre reglas de agregación para prevenir la identificación individual y Cryptographic Computing para análisis cifrado.Unificación de identidad de clientes - Resolución de entidades de datos de clientes dispersos con AWS Entity ResolutionResolución de entidades (name matching) de datos de clientes con AWS Entity Resolution. Matching basado en ML, matching basado en reglas, protección de privacidad e integración con Clean Rooms.Aprovechamiento de datos de terceros con AWS Data Exchange - Adquisición de datos y gestión de suscripcionesAdquiera productos de datos de terceros a través de Marketplace y construya pipelines de entrega automática a S3. También se presentan técnicas de productización y monetización de datos propios.Construcción de data lake con Amazon S3 y Lake Formation - Patrones de diseño y gobernanzaPatrones de diseño de data lake con S3 como base de almacenamiento y control de acceso granular con Lake Formation. También se explican pipelines ETL y optimización de costos.Gobernanza de data lake - Control de acceso centralizado con AWS Lake FormationConstrucción, control de acceso y gobernanza de data lake con AWS Lake Formation. Gestión granular de permisos a nivel de columna y fila para data lakes basados en S3, e integración con Glue y Athena.

Descripción general de la arquitectura de Redshift

Elección entre Serverless y clústeres provisionados

Uso compartido de datos e integración con data lakes mediante Spectrum

Precios de Redshift

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares