Amazon EMR によるビッグデータ処理 - Spark と Hive の実行環境

EMR クラスターで Spark ジョブと Hive クエリを実行し、EMR Serverless との使い分けとマネージドスケーリングによるコスト最適化を紹介します。

約 2 分で読めます最終更新: 2025-11-25

EMR クラスターの構成

EMR クラスターは最大数百ノードで構成され、マスターノード (クラスター管理と YARN リソースマネージャー)、コアノード (HDFS データ保持と計算処理)、タスクノード (計算処理のみ) で構成されます。コアノードは HDFS のデータを保持するため縮小時にデータ損失のリスクがありますが、タスクノードはデータを持たないため自由にスケールできます。S3 をプライマリストレージとして使用する場合、コアノードの HDFS は中間データの一時保存に限定し、タスクノードのスポットインスタンス活用でコストを削減します。EC2 インスタンスフリートを使うと、複数のインスタンスタイプを指定してスポットの可用性を高められます。

Spark と Hive の実行

Spark on EMR では spark-submit コマンドまたは EMR Steps API でジョブを投入します。EMRFS は S3 への読み書きを最適化するファイルシステムで、S3 の結果整合性を回避する一貫性ビューを提供します。Spark の動的リソース割り当て (Dynamic Resource Allocation) を有効にすると、ジョブの負荷に応じてエグゼキューターの数を自動調整します。Hive on EMR では Glue データカタログを外部メタストアとして設定でき、テーブル定義を Athena や Redshift Spectrum と共有できます。EMR Serverless はクラスターのプロビジョニングが不要で、アプリケーション単位でリソースを指定してジョブを実行します。

EMR on EKS とマネージドスケーリング

EMR on EKS は既存の EKS クラスターで Spark ジョブを実行し、 Kubernetes のリソース管理とスケジューリングを活用します。仮想クラスターを作成して EKS の名前空間にマッピングし、 StartJobRun API でジョブを投入します。 EMR on EC2 のマネージドスケーリングは、ジョブの負荷に応じてコアノードとタスクノードを自動的に追加・削除します。スケーリングの最小・最大ノード数を設定し、 YARN のメモリ使用率に基づいてスケーリング判断が行われます。 EMR Studio はブラウザベースの IDE で、 Jupyter ノートブックから EMR クラスターに接続してインタラクティブな分析を実行できます。 Spark の設計パターンを網羅的に学ぶなら、技術書 (Amazon)を参照してください。

EMR のコスト最適化

EMR のコストはインスタンス料金と EMR 料金 (EC2 料金の約 25%) で構成されます。タスクノードにスポットインスタンスを使用し、コアノードはオンデマンドで HDFS データの安全性を確保する構成が推奨されます。S3 をプライマリストレージとする EMRFS アーキテクチャでは、コアノードの HDFS を最小限にしてスポットの中断リスクを軽減できます。一時的なクラスターをジョブ実行時のみ起動し、完了後に自動終了する設計で、アイドル時間のコストを排除します。Graviton インスタンス (m6g、r6g) は同等の x86 インスタンスより約 20% 安価で、Spark ジョブの実行に適しています。

まとめ

EMR は Spark や Hive などのビッグデータフレームワークのマネージド実行環境を提供します。S3 をプライマリストレージとした EMRFS アーキテクチャでスポットインスタンスの中断リスクを軽減し、マネージドスケーリングでジョブ負荷に応じたノード数の自動調整を実現します。EMR on EKS で既存の Kubernetes 環境との統合も可能です。

Amazon Quick の実践活用 - 部門別ユースケースとワークフロー自動化の設計パターン営業・IT・財務など部門ごとの活用シナリオと、Quick Flows による通知・承認・多段階ワークフローの設計パターンを具体的に紹介します。BI ダッシュボード可視化 - Amazon QuickSight で実現するデータドリブンな意思決定基盤Amazon QuickSight によるインタラクティブな BI ダッシュボードの構築と、Athena との連携によるサーバーレスデータ分析基盤を解説します。SPICE エンジンによる高速可視化と組織全体へのインサイト共有の実践手法を紹介します。ブロックチェーンネットワーク構築 - Amazon Managed Blockchain と QLDB による分散台帳の活用Amazon Managed Blockchain によるブロックチェーンネットワークの構築と、Amazon QLDB による検証可能な台帳データベースの活用方法を解説します。サプライチェーン管理や金融取引の透明性確保など、実践的なユースケースを紹介します。AWS Clean Rooms で実現するプライバシー保護型データコラボレーションデータを共有・コピーせずに複数企業間で共同分析を実行する。集計ルールによる個人特定防止と Cryptographic Computing による暗号化分析を紹介します。顧客 ID 統合 - AWS Entity Resolution で分散した顧客データを名寄せするAWS Entity Resolution を使った顧客データの名寄せ (エンティティ解決) を解説。ML ベースのマッチング、ルールベースのマッチング、プライバシー保護、Clean Rooms との統合を紹介します。AWS Data Exchange で活用するサードパーティデータ - データ調達とサブスクリプション管理サードパーティのデータ製品を Marketplace 経由で調達し、S3 への自動配信パイプラインを構築する。自社データの製品化と収益化の手法も紹介します。Amazon S3 と Lake Formation で構築するデータレイク - 設計パターンとガバナンスS3 をストレージ基盤とし Lake Formation できめ細かいアクセス制御を実現するデータレイクの設計パターンを紹介。ETL パイプラインとコスト最適化も解説します。データレイクガバナンス - AWS Lake Formation による一元的なアクセス制御AWS Lake Formation を使ったデータレイクの構築・アクセス制御・ガバナンスを解説。S3 ベースのデータレイクに対する列レベル・行レベルのきめ細かな権限管理と Glue ・ Athena との統合を紹介します。

EMR クラスターの構成

Spark と Hive の実行

EMR on EKS とマネージドスケーリング

EMR のコスト最適化

まとめ

関連するサービス

関連する記事

同じテーマの記事

内容が近い記事・サービス