AWS DataSync
オンプレミスと AWS 間、または AWS サービス間のデータ転送を自動化・高速化するサービスで、NFS/SMB/HDFS/S3/EFS/FSx 間の転送をスケジュール実行できる
概要
AWS DataSync は、オンプレミスのストレージシステムと AWS ストレージサービス間、または AWS ストレージサービス同士のデータ転送を自動化するサービスです。NFS、SMB、HDFS、オブジェクトストレージからの転送に対応し、S3、EFS、FSx for Windows File Server、FSx for Lustre、FSx for OpenZFS、FSx for NetApp ONTAP への転送が可能です。専用のネットワークプロトコルにより、オープンソースツールと比較して最大 10 倍の転送速度を実現します。転送中のデータ検証、暗号化、帯域幅制限、スケジュール実行を標準で備えています。
エージェントの配置とネットワーク設計
オンプレミスから AWS へのデータ転送では、DataSync エージェントをオンプレミス環境にデプロイする必要があります。エージェントは VMware ESXi、Microsoft Hyper-V、KVM 上の仮想マシンとして、または Amazon EC2 インスタンスとして実行できます。エージェントの最小要件は 4 vCPU、32 GB RAM で、転送するファイル数が数千万を超える場合は 16 vCPU、64 GB RAM 以上が推奨されます。ネットワーク経路は、インターネット経由、AWS Direct Connect 経由、VPC エンドポイント (PrivateLink) 経由の 3 つから選択できます。大量データの初回転送では Direct Connect の専用線を使い、日次の差分同期ではインターネット経由で十分というケースが多いです。帯域幅スロットリングにより、業務時間中は転送帯域を制限し、夜間に全帯域を使って転送するスケジュールも設定できます。AWS サービス間の転送 (例: S3 から EFS) ではエージェントは不要で、DataSync がマネージドに転送を実行します。
転送タスクの設計とデータ整合性の保証
DataSync のタスクは、ソースロケーション、デスティネーションロケーション、転送設定の 3 要素で構成されます。転送設定では、転送するデータのフィルタリング (include/exclude パターン)、ファイルメタデータの保持 (POSIX パーミッション、タイムスタンプ、所有者)、上書きポリシー (変更されたファイルのみ転送 or 全ファイル転送) を指定します。DataSync は転送中と転送後にチェックサム検証を自動的に実行し、ソースとデスティネーションのデータが完全に一致することを保証します。この検証は省略できず、データの整合性が常に担保されます。数億ファイルの大規模転送では、タスクの実行に数時間から数日かかることがありますが、中断しても次回実行時に差分のみを転送するため、最初からやり直す必要はありません。スケジュール実行を設定すれば、日次・週次の定期同期を自動化でき、オンプレミスのファイルサーバーと S3 の間でニアリアルタイムのデータレプリケーションを実現できます。
移行シナリオ別の設計パターン
DataSync の典型的なユースケースは 3 つあります。第一に、オンプレミスの NFS/SMB ファイルサーバーから S3 または EFS へのマイグレーションです。初回のフルコピー後、カットオーバーまで差分同期を継続し、最終同期後にアプリケーションの接続先を切り替えます。ファイル数が数千万を超える場合は、ディレクトリ単位でタスクを分割して並列実行することで転送時間を短縮できます。第二に、ハイブリッドクラウドでの継続的なデータ同期です。オンプレミスで生成されるログやセンサーデータを定期的に S3 に転送し、Athena や EMR で分析するパターンが代表的です。第三に、AWS リージョン間やアカウント間のデータ転送です。DR (災害復旧) 用に別リージョンの S3 バケットにデータを複製する場合、S3 のクロスリージョンレプリケーションでは対応できないファイルシステム (EFS、FSx) のデータ転送に DataSync が有効です。Transfer Family (SFTP/FTPS) との違いとして、Transfer Family は外部パートナーからのファイル受信に特化しているのに対し、DataSync は大量データの高速転送と自動化に特化しています。