Construcción de un almacén de datos en la nube con Amazon Redshift - Elección entre Serverless y RA3
Conozca los criterios para elegir entre clústeres Serverless y RA3 provisionados, y cómo prevenir silos de datos mediante el uso compartido de datos y la integración con data lakes a través de Spectrum.
Descripción general de la arquitectura de Redshift
Redshift es un almacén de datos en la nube basado en almacenamiento columnar y una arquitectura de procesamiento masivamente paralelo (MPP). El almacenamiento columnar lee solo las columnas necesarias para las consultas analíticas, reduciendo drásticamente la E/S en comparación con los sistemas RDBMS orientados a filas. El nodo líder se encarga del análisis de consultas y la generación de planes de ejecución, mientras que los nodos de cómputo realizan el procesamiento paralelo de datos. Las instancias RA3 separan el cómputo del almacenamiento, con los datos almacenados en Redshift Managed Storage (RMS) basado en S3. Los datos de acceso frecuente se almacenan en caché en SSD locales, por lo que no es necesario preocuparse por la latencia de lectura desde S3.
Elección entre Serverless y clústeres provisionados
Redshift Serverless escala automáticamente la capacidad en incrementos de RPU (Redshift Processing Unit) y no genera costos cuando no se ejecutan consultas. Es ideal para cargas de trabajo intermitentes como consultas periódicas de paneles de BI, análisis ad-hoc y entornos de desarrollo/pruebas. Por otro lado, los clústeres provisionados (RA3) son adecuados para cargas de trabajo que funcionan de forma continua. Para entornos de producción con ejecución continua de consultas las 24 horas, la combinación de RA3 con instancias reservadas puede ser más rentable que Serverless. Como regla general, si el tiempo diario de ejecución de consultas es inferior a 8 horas, Serverless es la mejor opción; si supera las 8 horas, los clústeres provisionados RA3 son más económicos.
Uso compartido de datos e integración con data lakes mediante Spectrum
El uso compartido de datos es una función que permite compartir datos en vivo en tiempo real entre clústeres de Redshift. Un clúster productor crea un recurso compartido de datos y un clúster consumidor lo referencia. No se produce copia de datos y el consumidor siempre ve los datos más recientes del productor. Esto es efectivo cuando los departamentos operan clústeres independientes pero necesitan compartir datos maestros comunes. Redshift Spectrum permite ejecutar consultas SQL directamente sobre datos almacenados en S3. Combinado con formatos columnares como Parquet u ORC, puede analizar data lakes a escala de petabytes sin cargar datos en Redshift. Utilizando el Glue Data Catalog como almacén de metadatos, tanto Redshift como Athena pueden consultar las mismas definiciones de tablas. Para conocimientos prácticos sobre Redshift, también puede explorar libros relacionados en Amazon.
Precios de Redshift
Redshift Serverless se factura según el uso de RPU (Redshift Processing Unit), con un RPU base a partir de 8 y un costo aproximado de 0,375 dólares por hora de RPU. No se aplican cargos cuando no se ejecutan consultas. Para clústeres provisionados, RA3.xlplus cuesta aproximadamente 1,086 dólares por nodo por hora (alrededor de 782 dólares/mes), con descuentos de instancias reservadas de hasta el 64%. Redshift Managed Storage cuesta aproximadamente 0,024 dólares por GB al mes. Si la ejecución diaria de consultas es inferior a 8 horas, Serverless es más económico; para cargas de trabajo continuas que superan las 8 horas, los clústeres provisionados RA3 son la mejor opción.
Resumen
Redshift es un almacén de datos en la nube que ofrece análisis de alto rendimiento sobre datos a escala de petabytes. Un enfoque gradual de comenzar con Serverless y migrar a clústeres provisionados a medida que crecen las cargas de trabajo es efectivo. Aprovechando el uso compartido de datos y Spectrum, puede prevenir silos de datos y lograr análisis unificado en todo su data lake.