AWS DataSync

Servicio que automatiza y acelera la transferencia de datos entre on-premises y AWS o entre servicios AWS, con ejecución programada de transferencias entre NFS/SMB/HDFS/S3/EFS/FSx

Descripción general

AWS DataSync es un servicio que automatiza la transferencia de datos entre sistemas de almacenamiento on-premises y servicios de almacenamiento AWS, o entre servicios de almacenamiento AWS. Compatible con transferencias desde NFS, SMB, HDFS y almacenamiento de objetos, soporta destinos como S3, EFS, FSx for Windows File Server, FSx for Lustre, FSx for OpenZFS y FSx for NetApp ONTAP. Optimiza automáticamente el rendimiento de la red, encripta los datos en tránsito y verifica la integridad de los datos transferidos.

Ubicación del agente y diseño de red

DataSync utiliza un agente de software que se despliega en el entorno on-premises para acceder a los sistemas de almacenamiento de origen. El agente se despliega como máquina virtual (VMware ESXi, Microsoft Hyper-V, KVM) o como instancia EC2 (para transferencias entre servicios AWS). El agente requiere acceso de red al almacenamiento de origen (NFS/SMB) y conectividad a los endpoints de DataSync en AWS. Para transferencias a través de internet, el agente usa TLS para encriptar los datos en tránsito. Para transferencias de alto volumen o requisitos de seguridad estrictos, se recomienda usar Direct Connect o VPN para una conexión dedicada. Los VPC endpoints (PrivateLink) permiten que el tráfico de DataSync no salga de la red privada de AWS. El agente gestiona automáticamente la paralelización de transferencias, compresión en línea y optimización del ancho de banda. Se pueden configurar límites de ancho de banda para evitar saturar la conexión de red durante horarios de producción.

Diseño de tareas de transferencia y garantía de integridad de datos

Una tarea de DataSync define la transferencia entre una ubicación de origen y una ubicación de destino con opciones de configuración específicas. Las opciones incluyen: verificación de datos (verificar integridad después de la transferencia), preservación de metadatos (timestamps, permisos, propietarios), manejo de archivos eliminados en origen (preservar o eliminar en destino), filtros de inclusión/exclusión (transferir solo archivos que coincidan con patrones específicos) y programación (ejecución periódica mediante cron). La verificación de integridad compara checksums de los archivos transferidos para garantizar que no hubo corrupción durante la transferencia. Para transferencias incrementales, DataSync compara los metadatos de origen y destino para transferir solo los archivos nuevos o modificados, reduciendo significativamente el tiempo y costo de transferencias recurrentes. Los logs de tareas en CloudWatch proporcionan visibilidad detallada del progreso, archivos transferidos, errores y métricas de rendimiento.

Patrones de diseño por escenario de migración

DataSync se utiliza en diversos escenarios de migración. Para migración de file servers a la nube, se transfieren datos de NFS/SMB on-premises a EFS o FSx, manteniendo la estructura de directorios y permisos. Para migración de data lakes, se transfieren grandes volúmenes de datos de HDFS a S3 para análisis con servicios como Athena y EMR. Para replicación de datos entre regiones, se configuran tareas entre buckets S3 o sistemas de archivos en diferentes regiones para disaster recovery. Para archivado, se transfieren datos fríos a S3 Glacier o S3 Glacier Deep Archive. El patrón de migración híbrida mantiene sincronización bidireccional entre on-premises y AWS durante el período de transición. Para migraciones de gran escala (petabytes), se combina DataSync con Snow Family: Snowball Edge para la transferencia inicial masiva y DataSync para la sincronización incremental posterior. Los costos se basan en la cantidad de datos transferidos (por GB), sin cargos por el agente ni por las tareas configuradas.

共有するXB!