Amazon Athena のアイコン

Amazon Athena Popular2016年〜

Un servicio de consultas serverless que permite analizar datos en S3 usando SQL estándar

Qué hace

Amazon Athena es un servicio de análisis serverless que te permite ejecutar consultas SQL estándar directamente contra datos almacenados en S3. No necesitas configurar servidores de bases de datos ni mover tus datos: puedes analizarlos justo donde están en S3. Soporta una amplia gama de formatos de datos incluyendo CSV, JSON, Parquet y ORC, y solo pagas por la cantidad de datos escaneados.

Casos de uso

Se utiliza para analizar archivos de registro almacenados en S3, investigar registros de auditoría de CloudTrail, identificar tendencias a partir de registros de acceso, agregar datos empresariales en un data lake y ejecutar análisis de datos ad-hoc. Es ideal siempre que quieras analizar rápidamente datos que ya están en S3.

Analogía cotidiana

Imagínalo como un sistema de búsqueda en el catálogo de una biblioteca. No necesitas mover la vasta colección de libros (datos en S3) a otro lugar. Solo ingresa tus criterios de búsqueda en el terminal (Athena) y encuentra la información que necesitas al instante. Solo pagas por las búsquedas que realizas, sin costo de mantenimiento del terminal en sí.

¿Qué es Athena?

Amazon Athena es un servicio de consultas interactivas serverless que usa S3 como fuente de datos. Internamente, utiliza el motor Apache Presto (Trino), habilitando consultas rápidas incluso contra conjuntos de datos grandes. No se requiere aprovisionamiento ni gestión de servidores: solo escribe SQL y comienza a analizar tus datos.

Características principales

La mayor fortaleza de Athena es la capacidad de analizar datos ya almacenados en S3 sin ningún cambio. No hay necesidad de procesamiento ETL (Extraer, Transformar, Cargar) para mover datos a una base de datos separada. El precio se basa únicamente en la cantidad de datos escaneados, aproximadamente $5 por TB. Al convertir tus datos a formatos columnares como Parquet u ORC y aplicar particionamiento, puedes reducir significativamente el volumen de escaneo para optimizar tanto el costo como la velocidad.

Integración con Data Catalog

Athena trabaja con AWS Glue Data Catalog para gestionar el esquema (estructura) de tus datos en S3. Usando Glue Crawlers, puedes escanear automáticamente datos en S3 y crear definiciones de tablas. Una vez definida una tabla, puedes buscar datos usando sentencias SELECT como en una base de datos regular. Para más detalles sobre la integración con Data Catalog, libros de referencia en Amazon proporcionan una cobertura completa.

Cómo empezar

Para comenzar a usar Athena, abre el editor de consultas en la consola de Athena. Primero, configura un bucket de S3 para almacenar los resultados de tus consultas. Luego, define la ubicación y el esquema de tus datos en S3 usando una sentencia CREATE TABLE. Una vez creada la tabla, puedes consultar datos con sentencias SELECT. Puedes ejecutar consultas directamente desde la consola de administración de AWS y descargar resultados como archivos CSV.

Aspectos a tener en cuenta

  • Pricing is based on the amount of data scanned, so use partition splitting and columnar formats to optimize costs
  • Complex queries on large datasets may take longer to execute. For regular analytics workloads, Redshift may be a better fit
  • Query results are stored in S3, so keep in mind the storage costs for the results bucket as well
共有するXB!