AWS DataSync で高速化するデータ転送 - オンプレミスから S3 ・ EFS への移行

オンプレミスから S3・EFS への高速データ転送を自動化する。エージェントのデプロイ、タスクスケジューリング、転送データの整合性検証を紹介します。

DataSync の概要

DataSync はオンプレミスと AWS 間のデータ転送を自動化・高速化するサービスで、1 タスクあたり最大 10 Gbps のスループットを実現します。rsync や robocopy と比較して最大 10 倍の転送速度を実現し、ネットワーク帯域幅を最大限に活用します。オンプレミスの NFS/SMB ファイルサーバーから S3、EFSFSx for Windows へのデータ移行に使用します。

エージェントとタスク設計

オンプレミスに DataSync エージェント (VMware ESXi、Hyper-V、KVM の仮想マシン) をデプロイし、ソースストレージに接続します。タスクでソースロケーション (オンプレミス NFS) とデスティネーションロケーション (S3 バケット) を指定し、転送オプション (ファイルのメタデータ保持、除外フィルター) を設定します。スケジュール実行で毎日の差分転送を自動化し、オンプレミスと AWS のデータを継続的に同期できます。転送完了後にデータの整合性が自動検証され、チェックサムの不一致があれば報告されます。

AWS 間転送とスケジューリング

DataSync は AWS サービス間のデータ転送もサポートします。 S3 バケット間、 EFS 間、 FSx 間、 S3 から EFS への転送をエージェントなしで実行できます。クロスアカウント・クロスリージョンの転送にも対応し、 DR 環境へのデータレプリケーションに活用できます。タスクスケジュールで定期的な転送を自動化し、日次や週次の増分転送でデータを同期します。転送フィルターでファイル名パターンや更新日時に基づいて転送対象を絞り込み、不要なデータの転送を避けます。 DataSync のベストプラクティスを把握するうえで関連書籍 (Amazon)が参考になります。

DataSync の料金

DataSync の料金はコピーしたデータ量で課金され、1 GB あたり約 0.0125 ドルです。オンプレミスからの転送ではエージェントの実行環境 (VM) が必要ですが、エージェント自体に追加料金は発生しません。AWS サービス間の転送も同じデータ量課金です。転送先のストレージ料金 (S3、EFS、FSx) は別途発生します。差分転送で変更されたファイルのみを転送し、データ量を最小化することでコストを最適化します。大量データの初回転送には AWS Snowball との併用も検討します。

まとめ

DataSync はオンプレミスから AWS、および AWS サービス間のデータ転送を高速化・自動化するサービスです。差分転送で変更されたファイルのみを効率的に同期し、スケジュール設定で定期的な転送を自動化します。転送フィルターでファイル名パターンや更新日時に基づいて対象を絞り込み、クロスリージョン・クロスアカウントの転送にも対応します。