AWS DataSync
自动化和加速本地与 AWS 之间或 AWS 服务间数据传输的服务,支持 NFS/SMB/HDFS/S3/EFS/FSx 间的定时传输
概述
AWS DataSync 是一项自动化本地存储系统与 AWS 存储服务之间或 AWS 存储服务之间数据传输的服务。支持从 NFS、SMB、HDFS 和对象存储传输,可传输到 S3、EFS、FSx for Windows File Server、FSx for Lustre、FSx for OpenZFS 和 FSx for NetApp ONTAP。专用网络协议实现比开源工具快最多 10 倍的传输速度。标准具备传输中数据验证、加密、带宽限制和定时执行功能。
代理部署与网络设计
从本地向 AWS 传输数据时,需要在本地环境部署 DataSync 代理。代理可作为 VMware ESXi、Microsoft Hyper-V 或 KVM 上的虚拟机运行,也可作为 Amazon EC2 实例运行。代理最低要求为 4 vCPU、32 GB RAM,传输文件数超过数千万时建议 16 vCPU、64 GB RAM 以上。网络路径可选互联网、AWS Direct Connect 或 VPC 端点(PrivateLink)三种。大量数据首次传输使用 Direct Connect 专线,日常差异同步通过互联网即可满足的情况较多。带宽限流可设置工作时间限制传输带宽、夜间使用全部带宽的计划。AWS 服务间传输(如 S3 到 EFS)无需代理,DataSync 以托管方式执行传输。
传输任务设计与数据完整性保证
DataSync 的任务由源位置、目标位置和传输设置三要素组成。传输设置中指定数据过滤(include/exclude 模式)、文件元数据保留(POSIX 权限、时间戳、所有者)和覆盖策略(仅传输变更文件或全部文件)。DataSync 在传输中和传输后自动执行校验和验证,保证源和目标数据完全一致。此验证不可跳过,数据完整性始终得到保障。数亿文件的大规模传输可能需要数小时到数天,但中断后下次执行仅传输差异,无需从头开始。设置定时执行后可自动化日频或周频的定期同步,实现本地文件服务器与 S3 之间的近实时数据复制。
按迁移场景的设计模式
DataSync 的典型用例有三种。第一是从本地 NFS/SMB 文件服务器迁移到 S3 或 EFS。首次全量复制后持续差异同步直到切换,最终同步后切换应用连接目标。文件数超过数千万时,可按目录拆分任务并行执行以缩短传输时间。第二是混合云中的持续数据同步。将本地生成的日志或传感器数据定期传输到 S3,用 Athena 或 EMR 分析是典型模式。第三是 AWS 区域间或账户间的数据传输。为 DR(灾难恢复)将数据复制到另一区域的 S3 存储桶时,S3 跨区域复制无法处理的文件系统(EFS、FSx)数据传输可使用 DataSync。与 Transfer Family(SFTP/FTPS)的区别在于,Transfer Family 专注于接收外部合作伙伴的文件,而 DataSync 专注于大量数据的高速传输和自动化。