Amazon DocumentDB で運用する MongoDB 互換データベース - 設計パターンとスケーリング

DocumentDB の MongoDB 互換性、インスタンスクラスの選定、Elastic Clusters によるシャーディング、バックアップ戦略を解説します。

DocumentDB の特徴と MongoDB との違い

DocumentDB は MongoDB 互換の API を提供するマネージドドキュメントデータベースです。MongoDB のドライバー、ODM (Mongoose など)、管理ツール (mongosh、Compass) をそのまま使用できます。ただし、内部アーキテクチャは MongoDB とは異なり、Aurora と同様のストレージエンジンを採用しています。ストレージは 3 つの AZ に 6 つのコピーを自動複製し、10 GB 単位で最大 128 TiB まで自動拡張されます。MongoDB のレプリカセットやシャーディングの運用管理が不要になる点が最大のメリットです。一方、MongoDB の一部機能 (クライアントサイドフィールドレベル暗号化、$graphLookup の一部パターンなど) はサポートされていないため、移行前に互換性の検証が必要です。

この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。

インスタンス設計とスケーリング

DocumentDB のインスタンスクラスは db.r6g (メモリ最適化、Graviton2) が標準的な選択肢です。プライマリインスタンスが書き込みを処理し、最大 15 のリードレプリカが読み取りを分散します。リードレプリカはフェイルオーバーターゲットとしても機能し、プライマリ障害時に自動的に昇格します。大規模なワークロードには Elastic Clusters を使用します。Elastic Clusters はデータをシャードキーに基づいて自動的に分散し、ペタバイト規模のデータと数百万回/秒のスループットに対応します。シャードキーの選定はパフォーマンスに直結するため、カーディナリティが高く、クエリパターンに合致するフィールドを選択することが重要です。

バックアップと高可用性

DocumentDB は継続的バックアップを自動的に S3 に取得し、最大 35 日間の任意の秒単位でポイントインタイムリストアが可能です。手動スナップショットは保持期間の制限なく保存でき、クロスリージョンコピーで DR に対応します。マルチ AZ 配置ではプライマリとリードレプリカを異なる AZ に配置し、AZ 障害時のフェイルオーバーは通常 30 秒以内に完了します。グローバルクラスターを使用すると、最大 5 つのリージョンにリードレプリカを配置し、リージョン障害時に別リージョンのレプリカをプライマリに昇格できます。レプリケーションラグは通常 1 秒未満です。

さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。

まとめ

DocumentDB は MongoDB 互換の API でドキュメントデータベースをマネージドに運用するサービスです。Aurora ベースのストレージエンジンで高い耐久性と可用性を実現し、Elastic Clusters で大規模ワークロードにも対応します。MongoDB からの移行では互換性の事前検証が重要ですが、運用管理の負荷を大幅に削減できます。

AWS の優位点

  • MongoDB 3.6/4.0/5.0 の API と互換性があり、既存の MongoDB ドライバーやツールをそのまま使用できる
  • ストレージは 3 つの AZ に 6 つのコピーを自動的に複製し、最大 128 TiB まで自動拡張される
  • Elastic Clusters でペタバイト規模のデータをシャーディングし、数百万回/秒の読み書きに対応できる
  • 最大 15 のリードレプリカで読み取りをスケールアウトし、フェイルオーバーは通常 30 秒以内に完了する
  • 継続的バックアップで最大 35 日間の任意の時点にポイントインタイムリストアが可能

同じテーマの記事

Amazon Aurora Global Database で実現するマルチリージョン構成 - DR とグローバル読み取りの設計 Aurora Global Database によるクロスリージョンレプリケーション、1 秒未満の RPO での DR 設計、グローバル読み取りの活用法を解説します。 Cassandra 互換データベース - Amazon Keyspaces で実現するサーバーレスな分散データベース Amazon Keyspaces (for Apache Cassandra) と DynamoDB を活用した分散データベースの設計・運用方法を解説します。 Amazon DynamoDB Accelerator (DAX) でマイクロ秒レイテンシを実現 - インメモリキャッシュの設計 DAX によるDynamoDB の読み取り高速化、キャッシュ戦略、クラスタ設計を解説します。 ドキュメントデータベース活用 - Amazon DocumentDB と DynamoDB で実現する柔軟なデータモデリング Amazon DocumentDB と DynamoDB を活用したドキュメントデータベースの設計・運用方法を解説します。 Amazon DocumentDB の Change Streams で構築するイベント駆動アーキテクチャ DocumentDB の Change Streams による変更データキャプチャ、Lambda トリガーとの統合、リアルタイムデータ同期パターンを解説します。 Amazon DocumentDB で MongoDB ワークロードをマネージドに運用 - ドキュメントモデルとクエリ設計 DocumentDB による MongoDB 互換データベースの運用、インデックス設計、グローバルクラスターの活用を解説します。 Amazon DynamoDB のテーブル設計パターン - シングルテーブル設計と GSI の活用 DynamoDB のパーティションキー設計、シングルテーブルデザイン、GSI によるアクセスパターンの実現を解説します。 DynamoDB Global Tables でマルチリージョンデータベースを構築 - アクティブ-アクティブレプリケーション Global Tables によるマルチリージョンレプリケーション、コンフリクト解決、DR 設計を解説します。 Amazon ElastiCache のキャッシュ設計 - Redis と Memcached の選定とキャッシュ戦略 ElastiCache の Redis と Memcached の選定基準、Lazy Loading・Write-Through のキャッシュ戦略、Serverless モードの活用法を解説します。 グラフデータベース - Amazon Neptune で実現する高度な関係性データの分析と活用 Amazon Neptune によるグラフデータベースの構築と、複雑な関係性データの分析手法を解説します。ソーシャルネットワーク、不正検知、ナレッジグラフなど、グラフモデルが威力を発揮するユースケースと設計パターンを紹介します。 Amazon Keyspaces で運用する Apache Cassandra 互換データベース - サーバーレスで始める広域分散DB Amazon Keyspaces の Cassandra 互換性、オンデマンドとプロビジョンドのキャパシティ選定、パーティションキー設計を解説します。 Amazon Keyspaces で Cassandra ワークロードをマネージドに運用 - CQL 互換とサーバーレス Keyspaces による Cassandra 互換データベースの運用、CQL の活用、オンデマンドキャパシティの設計を解説します。 台帳データベース - Amazon QLDB で実現する改ざん不可能なデータ記録と監査証跡 Amazon QLDB (Quantum Ledger Database) による改ざん不可能な台帳データベースの構築と、DynamoDB との組み合わせによるハイブリッドデータアーキテクチャを解説します。金融取引、規制コンプライアンス、サプライチェーンでの活用パターンを紹介します。 Amazon Managed Blockchain で構築するプライベートブロックチェーン - Hyperledger Fabric の運用 Managed Blockchain による Hyperledger Fabric ネットワークの構築、チェーンコードの開発、メンバー管理とガバナンスを解説します。 Amazon MemoryDB for Redis - 耐久性を備えたインメモリデータベースの設計と活用 MemoryDB の Multi-AZ 耐久性、ElastiCache との使い分け、プライマリデータベースとしての活用パターンを解説します。 Amazon MemoryDB for Redis で耐久性のあるインメモリデータベースを構築 - キャッシュとプライマリデータストアの統合 MemoryDB による Redis 互換インメモリデータベースの運用、耐久性の仕組み、ElastiCache との使い分けを解説します。 Amazon Neptune でグラフデータベースを構築 - ナレッジグラフとソーシャルネットワーク分析 Neptune によるグラフデータベースの構築、Gremlin/SPARQL クエリ、Neptune Analytics の活用を解説します。 Amazon RDS で運用するマネージドデータベース - Multi-AZ とリードレプリカの設計 RDS による Multi-AZ 構成、リードレプリカ、自動バックアップ、Performance Insights の活用を解説します。 Redis 互換データベース - Amazon MemoryDB と ElastiCache で実現する高速インメモリデータストア Amazon MemoryDB for Redis による耐久性のあるインメモリデータベースと、Amazon ElastiCache によるキャッシュレイヤーの構築方法を解説します。マイクロ秒レベルの読み取りレイテンシと高可用性を両立する設計パターンを紹介します。 リレーショナルデータベース - Amazon RDS と Aurora で実現する高可用性データベース Amazon RDS と Aurora を活用したリレーショナルデータベースの構築方法を解説します。 サーバーレスデータベース - DynamoDB で実現するスケーラブルなデータ管理 AWS DynamoDB を中心としたサーバーレスデータベースの活用方法を解説します。 時系列データベース - Amazon Timestream で IoT・メトリクスデータを効率管理する Amazon Timestream を使った時系列データの管理・クエリ・分析を解説。IoT センサーデータやアプリケーションメトリクスの格納、自動階層化ストレージ、SQL クエリによる分析を紹介します。 Amazon Timestream で構築する時系列データ分析基盤 - IoT データの格納とクエリ最適化 Timestream による時系列データの格納、メモリストアとマグネティックストアの使い分け、SQL クエリの最適化を解説します。