Aceleración de transferencia de datos con AWS DataSync - Migración de on-premises a S3 y EFS
Automatiza la transferencia de datos de alta velocidad desde on-premises a S3 y EFS. Presentamos el despliegue de agentes, la programación de tareas y la verificación de integridad de los datos transferidos.
Descripción general de DataSync
DataSync es un servicio que automatiza y acelera la transferencia de datos entre entornos on-premises y AWS, logrando un throughput máximo de 10 Gbps por tarea. Alcanza velocidades de transferencia hasta 10 veces superiores en comparación con rsync o robocopy, aprovechando al máximo el ancho de banda de red. El protocolo de transferencia utiliza optimizaciones propietarias que incluyen escalado de ventanas TCP y transferencia de streams paralelos para absorber la latencia WAN. Soporta transferencias desde servidores de archivos NFS/SMB on-premises a S3, EFS, FSx for Windows, FSx for Lustre y FSx for OpenZFS. También soporta la migración de datos desde HDFS (Hadoop Distributed File System), siendo adecuado para migrar plataformas de big data a la nube.
Diseño de agentes y tareas
Se despliega un agente de DataSync (máquina virtual en VMware ESXi, Hyper-V o KVM) en el entorno on-premises y se conecta al almacenamiento de origen. Los recursos recomendados para la VM del agente son 4 o más vCPUs y 16 GB o más de RAM. Un solo agente puede ejecutar múltiples tareas en paralelo, y se pueden desplegar agentes adicionales para escalar horizontalmente. En la tarea se especifica la ubicación de origen (NFS on-premises) y la ubicación de destino (bucket S3), y se configuran las opciones de transferencia (preservación de metadatos de archivos, filtros de exclusión, límite de ancho de banda). La opción de preservación de metadatos mantiene permisos POSIX, marcas de tiempo y UID/GID en el destino, reflejando los controles de acceso del servidor de archivos en el destino de migración. La ejecución programada automatiza la transferencia diferencial diaria, permitiendo sincronizar continuamente los datos entre on-premises y AWS. Tras completar la transferencia, la integridad de los datos se verifica automáticamente y se reporta cualquier discrepancia en los checksums.
Transferencia entre servicios AWS y programación
DataSync también soporta la transferencia de datos entre servicios de AWS. Se pueden ejecutar transferencias entre buckets S3, entre sistemas EFS, entre sistemas FSx y de S3 a EFS sin necesidad de agente. También es compatible con transferencias entre cuentas y entre regiones, siendo útil para la replicación de datos en entornos de recuperación ante desastres. La programación de tareas automatiza las transferencias periódicas, sincronizando datos mediante transferencias incrementales diarias o semanales. Los filtros de transferencia permiten delimitar los objetos de transferencia según patrones de nombre de archivo o fecha de actualización, evitando la transferencia de datos innecesarios. La integración con EventBridge permite construir flujos de trabajo automatizados disparados por la finalización o fallo de tareas, como lanzar trabajos de Glue, ejecutar funciones Lambda o enviar notificaciones SNS. Los informes de ejecución de tareas se pueden enviar a CloudWatch Logs, permitiendo monitorear el número de archivos transferidos, bytes, tiempo transcurrido y detalles de errores. Para comprender las mejores prácticas de DataSync, los libros relacionados (Amazon) son una referencia útil.
Comparación con otros métodos de transferencia de datos
AWS ofrece múltiples opciones de transferencia de datos, y elegir la correcta según el volumen de datos y los requisitos es importante. DataSync es óptimo para la sincronización y migración continua por red, con transferencia incremental solo de datos modificados y verificación automática de integridad. AWS Transfer Family (SFTP/FTPS/FTP) es adecuado para integraciones con socios e intercambio de archivos con sistemas legacy, permitiendo la migración a la nube sin cambiar flujos de trabajo SFTP existentes, pero no está diseñado para migración masiva de datos. S3 Replication (CRR/SRR) proporciona replicación a nivel de objeto entre buckets que copia automáticamente al escribir, pero no puede usarse para transferencias de on-premises a AWS. AWS Snow Family (Snowball Edge, Snowcone) se usa cuando el ancho de banda es limitado o para enviar datos a escala de PB en dispositivos físicos. Un patrón de migración común es transferir los datos iniciales masivos con Snowball y luego sincronizar los cambios posteriores con DataSync.
Mejores prácticas de diseño y consideraciones
Puntos clave a considerar al desplegar DataSync. Primero, la configuración del límite de ancho de banda (bandwidth throttle). Al ejecutar DataSync en una red compartida con tráfico de producción, limite el ancho de banda durante el horario laboral y programe transferencias a velocidad completa por la noche para evitar impactar el tráfico de negocio. Segundo, la selección de la clase de almacenamiento S3 de destino. DataSync puede especificar la clase de almacenamiento para los objetos colocados; los datos de archivo de acceso infrecuente pueden colocarse directamente en S3 Glacier Instant Retrieval para reducir costos. Tercero, al transferir grandes cantidades de archivos pequeños (millones de archivos), el overhead por tarea aumenta, así que dividir tareas por directorio y ejecutarlas en paralelo maximiza el throughput. Cuarto, seguridad y cumplimiento. Los datos en tránsito se cifran con TLS 1.2, y el S3 de destino soporta cifrado del lado del servidor SSE-S3, SSE-KMS o SSE-C. Usar VPC endpoints (PrivateLink) asegura que la comunicación entre agente y AWS no atraviese internet público. Las políticas IAM proporcionan control granular sobre los permisos de ejecución de tareas, y CloudTrail registra todas las llamadas API. DataSync cumple con HIPAA, PCI DSS y SOC 1/2/3, permitiendo su uso en industrias reguladas.
Precios de DataSync
Los precios de DataSync se basan en la cantidad de datos copiados, a aproximadamente $0.0125 por GB. Para transferencias desde on-premises se requiere un entorno de ejecución del agente (VM), pero el agente en sí no genera cargos adicionales. Las transferencias entre servicios de AWS también se facturan por volumen de datos. Los costos de almacenamiento del destino (S3, EFS, FSx) se cobran por separado. La transferencia diferencial optimiza los costos al transferir solo los archivos modificados, minimizando el volumen de datos. Configurar el límite de ancho de banda no afecta la facturación por volumen de datos, por lo que la velocidad de transferencia y el costo no son un compromiso; el costo es proporcional solo a los bytes transferidos. Para la transferencia inicial de grandes volúmenes de datos, considere el uso combinado con AWS Snowball.
Resumen
DataSync es un servicio que acelera y automatiza la transferencia de datos desde on-premises a AWS y entre servicios de AWS. Maximiza la utilización del ancho de banda WAN mediante CBT y streams paralelos, sincronizando eficientemente solo los archivos modificados mediante transferencia diferencial. Soporta diversas fuentes incluyendo HDFS y transferencias seguras a través de VPC endpoints. La combinación con Snow Family o el aprovechamiento del límite de ancho de banda proporciona flexibilidad para diversos escenarios de migración.