Amazon Redshift で構築するクラウドデータウェアハウス - Serverless と RA3 の使い分け

Serverless と RA3 プロビジョンドの選定基準を明確にし、データ共有と Spectrum によるデータレイク連携でサイロ化を防ぐ手法を紹介します。

約 3 分で読めます最終更新: 2025-12-31

Redshift のアーキテクチャ概要

Redshift は列指向ストレージと超並列処理 (MPP) アーキテクチャを採用したクラウドデータウェアハウスです。列指向ストレージにより、分析クエリで必要な列のみを読み取るため、行指向の RDBMS と比較して I/O を大幅に削減します。リーダーノードがクエリの解析と実行計画の生成を担当し、コンピュートノードがデータの並列処理を実行します。RA3 インスタンスではコンピュートとストレージが分離されており、データは S3 ベースの Redshift Managed Storage (RMS) に格納されます。頻繁にアクセスされるデータはローカル SSD にキャッシュされるため、S3 からの読み取りレイテンシを意識する必要はありません。

Serverless とプロビジョンドクラスタの選定

Redshift Serverless はキャパシティを RPU (Redshift Processing Unit) 単位で自動スケーリングし、クエリが実行されていない間はコストが発生しません。BI ダッシュボードの定期的なクエリ、アドホック分析、開発・テスト環境など、ワークロードが断続的な場合に最適です。一方、プロビジョンドクラスタ (RA3) は常時稼働のワークロードに向いています。24 時間継続的にクエリが実行される本番環境では、リザーブドインスタンスとの組み合わせで Serverless より低コストになります。判断の目安として、1 日あたりのクエリ実行時間が 8 時間未満なら Serverless、8 時間以上なら RA3 プロビジョンドが有利です。

データ共有と Spectrum によるデータレイク連携

データ共有は、 Redshift クラスタ間でライブデータをリアルタイムに共有する機能です。プロデューサークラスタがデータ共有を作成し、コンシューマークラスタがそれを参照します。データのコピーは発生せず、コンシューマーは常にプロデューサーの最新データを参照します。部門ごとに独立したクラスタを運用しつつ、共通のマスターデータを共有するユースケースに有効です。 Redshift Spectrum は S3 上のデータに直接 SQL クエリを実行する機能です。 Parquet や ORC などの列指向フォーマットと組み合わせることで、 Redshift にロードせずにペタバイト規模のデータレイクを分析できます。 Glue Data Catalog をメタデータストアとして使用し、 Redshift と Athena の両方から同じテーブル定義でクエリを実行できます。 Redshift に関する実践的なノウハウはAmazon の関連書籍でも確認できます。

Redshift の料金

Redshift Serverless は RPU (Redshift Processing Unit) の使用量で課金され、ベース RPU は 8 から設定可能で、1 RPU 時間あたり約 0.375 ドルです。クエリが実行されていない間はコストが発生しません。プロビジョンドクラスタの RA3.xlplus は 1 ノードあたり約 1.086 ドル/時 (月額約 782 ドル) で、リザーブドインスタンスで最大 64% の割引が適用されます。Redshift Managed Storage は 1 GB あたり月額約 0.024 ドルです。1 日 8 時間未満のクエリ実行なら Serverless、8 時間以上の常時稼働なら RA3 プロビジョンドが有利です。

テーブル設計とパフォーマンス

Redshift の性能は、テーブルの設計に大きく左右されます。データを各ノードにどう分散させるかを決める分散方式と、データを並べる順序を決めるソートの設計が要点です。よく結合するテーブル同士を同じキーで分散させると、ノード間のデータ移動が減り、結合が高速になります。よく絞り込みに使う列でソートしておけば、不要なデータの読み込みを避けられます。データは自動で圧縮され、ストレージと読み込み量を削減します。クエリのパターンを踏まえて分散とソートを設計することが、大規模データでも高速に応答するデータウェアハウスの鍵になります。

データのロードと変換

Redshift へのデータ投入は、S3 からの一括ロードが基本で、並列に効率よく取り込めます。データウェアハウスの内部で変換を行う ELT のアプローチを取れば、強力な処理能力を活かして大量データを加工できます。頻繁に実行する集計は、結果をあらかじめ計算して保持するマテリアライズドビューにしておくと、繰り返しのクエリを高速化できます。テーブルの最適化を自動で調整する機能もあり、運用の手間を減らせます。生データを取り込み、ウェアハウス内で分析しやすい形に整える流れを設計することが、データ活用の効率を高めます。

同時実行とワークロード管理

多くの利用者が同時にクエリを実行する環境では、リソースの取り合いで性能が低下しがちです。Redshift は、同時実行が増えたときに処理能力を一時的に拡張する仕組みを備え、混雑時でも応答性を保てます。ワークロード管理の機能で、クエリを重要度や種類ごとのキューに振り分け、リソースの配分を制御できます。短時間で終わる軽いクエリを優先的に処理させれば、重いクエリの裏で待たされることを避けられます。利用者やジョブの特性に応じてリソースを適切に配分することが、限られた計算資源を公平かつ効率的に使う運用につながります。

セキュリティとガバナンス

データウェアハウスには組織の重要なデータが集まるため、保護とアクセス管理が欠かせません。保存データと通信を暗号化し、VPC 内に配置してネットワークを制御します。アクセス権限は役割に応じて付与し、列や行のレベルで参照範囲を制限すれば、同じテーブルでも利用者ごとに見せる範囲を変えられます。機微な列をマスキングして保護することもできます。誰がどのデータにアクセスしたかを記録し、監査できるようにします。データレイクと連携する際も一貫した権限管理を適用することで、組織全体で統制の取れたデータガバナンスを実現できます。

まとめ

Redshift はペタバイト規模のデータ分析を高速に実行するクラウドデータウェアハウスです。Serverless で小さく始め、ワークロードの成長に応じてプロビジョンドクラスタに移行する段階的なアプローチが有効です。データ共有と Spectrum を活用することで、データのサイロ化を防ぎ、データレイクとの統合分析を実現できます。

Amazon Quick の実践活用 - 部門別ユースケースとワークフロー自動化の設計パターン営業・IT・財務など部門ごとの活用シナリオと、Quick Flows による通知・承認・多段階ワークフローの設計パターンを具体的に紹介します。BI ダッシュボード可視化 - Amazon QuickSight で実現するデータドリブンな意思決定基盤Amazon QuickSight によるインタラクティブな BI ダッシュボードの構築と、Athena との連携によるサーバーレスデータ分析基盤を解説します。SPICE エンジンによる高速可視化と組織全体へのインサイト共有の実践手法を紹介します。ブロックチェーンネットワーク構築 - Amazon Managed Blockchain と QLDB による分散台帳の活用Amazon Managed Blockchain によるブロックチェーンネットワークの構築と、Amazon QLDB による検証可能な台帳データベースの活用方法を解説します。サプライチェーン管理や金融取引の透明性確保など、実践的なユースケースを紹介します。AWS Clean Rooms で実現するプライバシー保護型データコラボレーションデータを共有・コピーせずに複数企業間で共同分析を実行する。集計ルールによる個人特定防止と Cryptographic Computing による暗号化分析を紹介します。顧客 ID 統合 - AWS Entity Resolution で分散した顧客データを名寄せするAWS Entity Resolution を使った顧客データの名寄せ (エンティティ解決) を解説。ML ベースのマッチング、ルールベースのマッチング、プライバシー保護、Clean Rooms との統合を紹介します。AWS Data Exchange で活用するサードパーティデータ - データ調達とサブスクリプション管理サードパーティのデータ製品を Marketplace 経由で調達し、S3 への自動配信パイプラインを構築する。自社データの製品化と収益化の手法も紹介します。Amazon S3 と Lake Formation で構築するデータレイク - 設計パターンとガバナンスS3 をストレージ基盤とし Lake Formation できめ細かいアクセス制御を実現するデータレイクの設計パターンを紹介。ETL パイプラインとコスト最適化も解説します。データレイクガバナンス - AWS Lake Formation による一元的なアクセス制御AWS Lake Formation を使ったデータレイクの構築・アクセス制御・ガバナンスを解説。S3 ベースのデータレイクに対する列レベル・行レベルのきめ細かな権限管理と Glue ・ Athena との統合を紹介します。

Redshift のアーキテクチャ概要

Serverless とプロビジョンドクラスタの選定

データ共有と Spectrum によるデータレイク連携

Redshift の料金

テーブル設計とパフォーマンス

データのロードと変換

同時実行とワークロード管理

セキュリティとガバナンス

まとめ

関連するサービス

関連する記事

同じテーマの記事

内容が近い記事・サービス