AWS DataSync
オンプレミスと AWS 間のデータ転送を高速かつ安全に自動化するデータ移行サービス
何ができるか
AWS DataSync は、オンプレミスのストレージシステムと AWS ストレージサービス (S3、EFS、FSx) 間、または AWS ストレージサービス間でデータを高速に転送するフルマネージドサービスです。ネットワーク帯域幅の最適化、データの整合性検証、暗号化転送を自動的に行い、手動でのデータコピーと比較して最大 10 倍の速度でデータを移動できます。スケジュール実行による定期的なデータ同期にも対応しており、ハイブリッドクラウド環境でのデータ管理を効率化します。
どのような場面で使うか
オンプレミスの NFS/SMB ファイルサーバーから S3 や EFS へのデータ移行、ハイブリッドクラウド環境での定期的なデータ同期、災害復旧 (DR) 用のデータレプリケーション、大規模なデータセットのクラウドへの初期移行、AWS リージョン間のデータ転送、オンプレミスのバックアップデータのクラウドアーカイブなど、データ移行と同期の幅広いシナリオで活用されています。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
身近な例え
プロの引っ越し業者に例えるとわかりやすいでしょう。自分でトラック (ネットワーク) を使って荷物 (データ) を運ぶと、積み方が非効率で時間がかかり、途中で荷物が壊れる (データ破損) リスクもあります。プロの業者 (DataSync) なら、荷物を効率的に梱包して最速ルートで運び、到着後に中身が無事か確認 (整合性検証) までしてくれます。
DataSync とは
AWS DataSync は、データ転送の複雑さを解消するフルマネージドサービスです。従来、オンプレミスからクラウドへのデータ移行には、rsync や robocopy などのツールを使ったスクリプトの作成、ネットワーク帯域幅の管理、データ整合性の検証など多くの手作業が必要でした。DataSync はこれらの作業を自動化し、信頼性の高いデータ転送を最小限の設定で実現します。NFS、SMB、HDFS、オブジェクトストレージなど多様なプロトコルに対応しています。
高速転送の仕組み
DataSync は独自のネットワーク最適化プロトコルにより、標準的なコピーツールと比較して最大 10 倍の転送速度を実現します。並列転送、データ圧縮、差分転送 (変更されたデータのみ転送) などの技術を組み合わせ、ネットワーク帯域幅を最大限に活用します。帯域幅の上限を設定することもでき、業務時間中は帯域を制限し、夜間に全帯域を使って転送するといった柔軟な運用が可能です。転送中のデータは TLS で暗号化されます。
データ整合性とスケジューリング
DataSync は転送中および転送後にデータの整合性を自動的に検証します。チェックサムの比較により、転送元と転送先のデータが完全に一致していることを保証します。不整合が検出された場合は自動的に再転送を行います。タスクのスケジュール実行機能により、毎時、毎日、毎週などの定期的なデータ同期を設定でき、ハイブリッドクラウド環境でのデータの鮮度を維持できます。CloudWatch との統合により、転送の進捗やエラーをリアルタイムに監視できます。
Azure・オンプレミスとの比較
AWS の優位点
- 独自のネットワーク最適化プロトコルにより標準的なコピーツールの最大 10 倍の転送速度を実現し、大規模データの移行時間を大幅に短縮できる
- 転送中および転送後のチェックサム検証を自動的に実行し、データの完全な整合性を保証するため、手動での検証作業が不要になる
- S3、EFS、FSx for Windows File Server、FSx for Lustre など複数の AWS ストレージサービスに対応しており、用途に応じた最適な転送先を柔軟に選択できる
注意点
- オンプレミスからの転送にはデータ転送エージェントのインストールが必要で、エージェントは VMware ESXi、KVM、Hyper-V 上の仮想マシンとしてデプロイする
- 大量データの初期移行ではネットワーク帯域がボトルネックになる場合があり、Snow Family との併用も検討すること
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。