AWS DataSync 专业2018年〜
自动化和加速本地与 AWS 之间数据传输的服务
它能做什么
AWS DataSync 是一项自动化数据传输的服务,可以在本地存储和 AWS 存储服务之间,以及 AWS 存储服务之间高速传输数据。支持 NFS、SMB、HDFS、对象存储等多种源,可以传输到 S3、EFS、FSx 等目标。内置数据完整性验证、加密和带宽限制功能。
使用场景
用于本地数据到 AWS 的迁移、定期数据备份到 S3、跨区域数据复制、本地 NAS 到 EFS 的迁移、大规模数据集的初始加载等。特别适合需要定期或一次性传输大量数据的场景。
日常类比
可以将其比作专业搬家公司。自己搬家(手动复制数据)既慢又容易出错。搬家公司(DataSync)有专业的打包技术(压缩和并行传输)、运输车辆(网络优化)和清单核对(完整性验证),确保所有物品安全快速地送达新家。
什么是 DataSync
AWS DataSync 是一项简化和加速数据传输的服务。与简单的文件复制不同,DataSync 使用专门的网络协议和并行传输技术,可以比开源工具快 10 倍。自动处理数据完整性验证、传输加密和元数据保留,减少手动操作和错误风险。
传输架构
DataSync 使用代理(Agent)架构。在本地环境中部署 DataSync Agent(虚拟机),Agent 负责从源存储读取数据并通过优化的协议传输到 AWS。对于 AWS 内部的传输(如 S3 到 S3 跨区域复制),无需 Agent。传输任务可以一次性执行或按计划定期执行。
数据完整性与安全
DataSync 在传输过程中和传输后都会验证数据完整性。传输中的数据通过 TLS 加密,存储在目标的数据可以使用 KMS 加密。支持带宽限制,避免数据传输占用过多网络带宽影响其他业务。还可以设置文件过滤器,只传输符合条件的文件。 关于数据迁移的方法,也可以参考相关书籍(Amazon)。
开始使用
对于本地到 AWS 的传输,首先在本地环境中部署 DataSync Agent(VMware、Hyper-V 或 KVM 虚拟机)。在 DataSync 控制台中激活 Agent,创建源位置和目标位置,然后创建传输任务。可以先执行测试传输确认配置正确后再进行完整传输。
注意事项
- 按传输的数据量计费(每 GB 约 0.0125 美元),大量数据传输前请估算成本
- DataSync Agent 需要至少 4 个 vCPU 和 16 GB 内存,请确保本地环境有足够资源
- 对于超大规模数据(数十 TB 以上),可能需要考虑 Snow Family 进行物理传输