AWS DataSync のアイコン

AWS DataSync

オンプレミスと AWS 間のデータ転送を自動化・高速化するサービス

何ができるか

AWS DataSync は、オンプレミスのストレージと AWS のストレージサービス (S3、EFS、FSx) 間のデータ転送を自動化・高速化するマネージドサービスです。専用のネットワークプロトコルにより、オープンソースツールと比較して最大 10 倍の速度でデータを転送できます。転送時のデータ整合性チェックやスケジュール実行にも対応しており、大規模なデータ移行を安全かつ効率的に行えます。

どのような場面で使うか

オンプレミスの NAS やファイルサーバーから S3 や EFS へのデータ移行、定期的なバックアップデータの AWS への転送、ハイブリッドクラウド環境でのデータ同期などに利用されています。数百 TB 規模のデータ移行プロジェクトでも、スケジュール設定と自動リトライにより運用負荷を大幅に削減できます。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。

身近な例え

引っ越し業者に例えるとわかりやすいでしょう。自分で荷物 (データ) を 1 つずつ運ぶ代わりに、プロの引っ越し業者 (DataSync) に依頼します。業者は専用のトラック (最適化されたプロトコル) で効率よく荷物を運び、荷物が壊れていないか (データ整合性) も確認してくれます。

DataSync とは

AWS DataSync は、オンプレミスと AWS の間でデータを高速に転送するためのサービスです。NFS、SMB、HDFS、オブジェクトストレージなど、さまざまなストレージプロトコルに対応しています。転送先として S3、EFS、FSx for Windows File Server、FSx for Lustre などを選択でき、用途に応じた柔軟なデータ移行が可能です。

高速転送の仕組み

DataSync は独自の転送プロトコルを使用し、ネットワーク帯域を最大限に活用します。並列転送やデータ圧縮、差分転送 (変更されたデータのみ転送) といった最適化技術により、rsync などのオープンソースツールと比較して大幅に高速な転送を実現します。転送中にデータの整合性チェックも自動で行われるため、データの欠損や破損を心配する必要がありません。

スケジュールと自動化

DataSync はタスクのスケジュール実行に対応しており、毎日・毎週などの定期的なデータ同期を自動化できます。たとえば、オンプレミスのファイルサーバーの変更分を毎晩 S3 に同期するといった運用が簡単に設定できます。CloudWatch との連携により、転送の進捗や完了をモニタリングし、異常時にアラートを受け取ることも可能です。

はじめかた

DataSync を使い始めるには、まずオンプレミス環境に DataSync エージェント (仮想マシン) をデプロイします。次に DataSync コンソールでソース (転送元) とデスティネーション (転送先) のロケーションを設定し、タスクを作成します。タスクを実行すると、エージェントがデータを読み取り、AWS に安全に転送します。

注意点

  • オンプレミス環境に DataSync エージェント用の仮想マシン (VMware、Hyper-V、KVM 対応) が必要。エージェントのリソース要件を事前に確認すること
  • 転送データ量に対する従量課金のため、大量データの初回移行ではコストを事前に見積もること
  • AWS 間 (例: S3 から EFS) の転送ではエージェント不要で、コンソールから直接タスクを作成できる

さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。