Amazon Redshift のアイコン

Amazon Redshift Popular2012年〜

Servicio de almacén de datos en la nube para análisis de alta velocidad sobre datos a escala de petabytes

Qué hace

Amazon Redshift es un servicio de almacén de datos en la nube completamente gestionado para agregación y análisis rápidos de grandes conjuntos de datos. Ejecuta consultas SQL estándar contra datos a escala de petabytes y ofrece hasta 10 veces mejor rendimiento que los almacenes de datos on-premises tradicionales. Su almacenamiento columnar y arquitectura de procesamiento masivamente paralelo (MPP) permiten consultas de agregación sobre miles de millones de filas en segundos. Redshift Spectrum también permite consultar datos directamente en S3.

Casos de uso

Agregación e informes de datos de ventas y clientes, construcción de dashboards con herramientas BI, análisis de efectividad de campañas de marketing, almacenamiento a largo plazo de logs y análisis de tendencias, y construcción de plataformas de análisis inter-organizacionales que integran múltiples fuentes de datos.

Analogía cotidiana

Es como un almacén masivo. En un sistema de estantes regular (base de datos orientada a filas), toda la información sobre un producto se almacena junta. El almacenamiento columnar de Redshift es como tener un estante solo para 'precios' y otro solo para 'categorías', agrupando el mismo tipo de información. Cuando necesita 'el total de todos los precios de productos', solo revisa el estante de precios, obteniendo su respuesta dramáticamente más rápido sin recorrer todo el almacén.

¿Qué es Redshift?

Amazon Redshift es el servicio de almacén de datos en la nube de AWS, lanzado en 2012. Un almacén de datos es una base de datos especializada optimizada para consultas analíticas (OLAP) en lugar de procesamiento transaccional (OLTP). Redshift almacena datos en formato columnar y los distribuye entre múltiples nodos para procesamiento paralelo, logrando un rendimiento de consultas extremadamente rápido.

Características principales

En el núcleo de Redshift está el almacenamiento columnar. Mientras que las bases de datos orientadas a filas almacenan datos registro por registro, el almacenamiento columnar agrupa valores de la misma columna. Esto es ideal para consultas analíticas que agregan columnas específicas (SUM, AVG, COUNT). Además, la compresión columnar reduce significativamente los requisitos de almacenamiento. El procesamiento masivamente paralelo (MPP) distribuye consultas entre múltiples nodos de cómputo para ejecución simultánea. Para profundizar en las características principales, los libros especializados en Amazon son un excelente recurso.

Redshift Spectrum e integración con S3

Redshift Spectrum permite ejecutar consultas SQL directamente contra datos en S3 desde su clúster de Redshift. No necesita cargar datos en Redshift; puede consultar archivos Parquet, ORC, JSON y CSV en S3 directamente. Esto permite una arquitectura de data lakehouse donde los datos calientes residen en Redshift y los datos fríos permanecen en S3, consultables bajo demanda.

Optimización de rendimiento

Redshift incluye funciones que optimizan automáticamente la distribución de datos y las claves de ordenamiento. Configurar claves de distribución y ordenamiento apropiadas mejora significativamente el rendimiento de las consultas. El escalado de concurrencia maneja automáticamente los picos de consultas agregando capacidad temporal. El almacenamiento en caché de resultados devuelve instantáneamente resultados de consultas repetidas.

Primeros pasos

La forma más fácil de comenzar con Redshift es Redshift Serverless. En la consola de Redshift, seleccione 'Serverless' y cree un espacio de trabajo. Cargue datos de muestra desde S3 usando el comando COPY y ejecute consultas SQL en el editor de consultas. Para cargas de trabajo de producción, evalúe si los clústeres aprovisionados ofrecen mejor relación costo-rendimiento.

Aspectos a tener en cuenta

  • Redshift Serverless is easy to start with, but provisioned clusters may be more cost-effective for consistently heavy query workloads
  • Use the COPY command for loading data from S3 - avoid row-by-row INSERT statements. COPY is optimized for parallel loading
  • Due to columnar storage characteristics, Redshift is not suited for OLTP workloads with frequent single-row updates/deletes. Consider RDS or DynamoDB for OLTP
共有するXB!