Amazon EMR Serverless で Spark ジョブをサーバーレスに実行 - クラスタ管理不要のビッグデータ処理
EMR Serverless による Spark/Hive ジョブの実行、ジョブランの設計、コスト最適化を解説します。
EMR Serverless の概要
この記事は約 3 分で読めます。 EMR Serverless は Spark と Hive のジョブをサーバーレスに実行するビッグデータ処理サービスです。EMR on EC2 がクラスタのインスタンスタイプ、ノード数、Auto Scaling の設定を必要とするのに対し、EMR Serverless はジョブを投入するだけでリソースが自動的にプロビジョニングされます。
この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
ジョブランとコスト最適化
アプリケーションを作成し、Spark または Hive のジョブランを投入します。ジョブランは vCPU とメモリの最大リソースを指定し、実際の使用量に対してのみ課金されます。事前初期化ワーカーはアプリケーションにワーカーを事前にプールし、ジョブの起動時間を数秒に短縮します。S3 のデータレイクに対して Spark SQL でクエリを実行し、Glue Data Catalog のテーブル定義を参照します。Iceberg テーブルフォーマットと組み合わせることで、ACID トランザクションとタイムトラベルクエリを実現します。
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。
まとめ
EMR Serverless はクラスタ管理不要で Spark/Hive ジョブを実行するサービスです。従量課金と事前初期化ワーカーでコストと起動時間を最適化します。
AWS の優位点
- Spark と Hive のジョブをサーバーレスに実行し、EMR クラスタの構築・管理・チューニングが不要
- ジョブの実行時間とリソース使用量に対してのみ課金され、アイドル時のコストが発生しない
- 事前初期化ワーカーでジョブの起動時間を短縮し、インタラクティブなクエリにも対応する
- S3 のデータレイクに対して直接 Spark SQL や Hive クエリを実行できる
- Glue Data Catalog と統合し、テーブルメタデータを共有してスキーマ管理を一元化する
同じテーマの記事
BI ダッシュボード可視化 - Amazon QuickSight で実現するデータドリブンな意思決定基盤
Amazon QuickSight によるインタラクティブな BI ダッシュボードの構築と、Athena との連携によるサーバーレスデータ分析基盤を解説します。SPICE エンジンによる高速可視化と組織全体へのインサイト共有の実践手法を紹介します。
ブロックチェーンネットワーク構築 - Amazon Managed Blockchain と QLDB による分散台帳の活用
Amazon Managed Blockchain によるブロックチェーンネットワークの構築と、Amazon QLDB による検証可能な台帳データベースの活用方法を解説します。サプライチェーン管理や金融取引の透明性確保など、実践的なユースケースを紹介します。
AWS Clean Rooms で実現するプライバシー保護型データコラボレーション
Clean Rooms による複数企業間のデータ共同分析、分析ルールの設計、Cryptographic Computing によるプライバシー保護を解説します。
顧客 ID 統合 - AWS Entity Resolution で分散した顧客データを名寄せする
AWS Entity Resolution を使った顧客データの名寄せ (エンティティ解決) を解説。ML ベースのマッチング、ルールベースのマッチング、プライバシー保護、Clean Rooms との統合を紹介します。
AWS Data Exchange で活用するサードパーティデータ - データ調達とサブスクリプション管理
AWS Data Exchange によるサードパーティデータの調達、S3 への自動配信、データ製品の公開手法を解説します。
データレイクガバナンス - AWS Lake Formation による一元的なアクセス制御
AWS Lake Formation を使ったデータレイクの構築・アクセス制御・ガバナンスを解説。S3 ベースのデータレイクに対する列レベル・行レベルのきめ細かな権限管理と Glue・Athena との統合を紹介します。
データマーケットプレイス活用 - AWS Data Exchange で実現するサードパーティデータの効率的な取得と活用
AWS Data Exchange を活用したサードパーティデータの取得と活用方法を解説します。S3 との統合によるデータパイプラインの構築と、データプロバイダーとしての公開手法を紹介します。
データ検索と分析の実践 - OpenSearch による全文検索と可視化基盤の構築
Amazon OpenSearch Service を活用したデータ検索と分析の設計手法を解説し、全文検索、ログ分析、ダッシュボード可視化による分析基盤の構築方法を紹介します。
Amazon DataZone で実現するデータガバナンス - データの発見・共有・アクセス制御
DataZone によるデータカタログの構築、ドメインベースのデータ共有、サブスクリプションワークフローを解説します。
デジタルツイン - AWS IoT TwinMaker で物理空間の 3D デジタルレプリカを構築する
AWS IoT TwinMaker を使ったデジタルツインの構築を解説。3D シーンの作成、IoT データとの連携、Grafana ダッシュボード統合、産業設備の可視化を紹介します。
Amazon EMR で実行する Apache Spark - ビッグデータ処理のクラスタ設計とコスト最適化
EMR による Spark クラスタの構築、EMR Serverless との使い分け、スポットインスタンス活用によるコスト最適化を解説します。
AWS Entity Resolution で実現するレコードマッチング - 顧客データの名寄せと統合
Entity Resolution による複数データソースのレコードマッチング、マッチングワークフローの設計を解説します。
車両フリートデータ管理 - AWS IoT FleetWise で車両テレメトリを効率的に収集する
AWS IoT FleetWise を使った車両テレメトリデータの収集を解説。車両モデリング、エッジでのデータフィルタリング、クラウドへの効率的なデータ転送を紹介します。
産業 IoT モニタリング - AWS IoT SiteWise で設備データを収集・可視化する
AWS IoT SiteWise を使った産業設備のデータ収集・モデリング・可視化を解説。OPC-UA 対応ゲートウェイ、アセットモデル、SiteWise Monitor ダッシュボードを紹介します。
IoT データ分析 - AWS IoT Analytics でデバイスデータを構造化・分析する
AWS IoT Analytics を使った IoT デバイスデータの収集・前処理・分析パイプラインを解説。チャネル・パイプライン・データストア・データセットの 4 コンポーネントと QuickSight 連携を紹介します。
IoT デバイス管理 - AWS IoT Core と Lambda で実現するスケーラブルな IoT プラットフォーム
AWS IoT Core と Lambda を活用した IoT デバイス管理プラットフォームの構築方法を解説します。
Amazon Kinesis で構築するリアルタイムデータパイプライン - Data Streams と Data Firehose の使い分け
Kinesis Data Streams と Data Firehose の使い分け、シャード設計、リアルタイム分析パイプラインの構築を解説します。
AWS Lake Formation で構築するデータレイク - きめ細かいアクセス制御とデータカタログ
Lake Formation によるデータレイクの構築、列・行レベルのアクセス制御、Glue Data Catalog との統合を解説します。
Amazon Managed Service for Apache Flink でリアルタイムストリーム処理 - ステートフル処理とウィンドウ集約
Managed Flink によるストリーム処理アプリケーションの構築、ウィンドウ集約、チェックポイントの設計を解説します。
マネージド Kafka ストリーミング - Amazon MSK で実現する大規模リアルタイムデータパイプライン
Amazon MSK (Managed Streaming for Apache Kafka) によるフルマネージド Kafka クラスタの構築と、Kinesis との使い分けを解説します。大規模なリアルタイムデータストリーミング基盤の設計パターンを紹介します。
Amazon MSK で構築する Apache Kafka ストリーミング基盤 - クラスタ設計と運用
Amazon MSK のクラスタ設計、MSK Serverless との使い分け、MSK Connect によるデータ連携パターンを解説します。
Amazon MSK Serverless で始めるイベントストリーミング - 運用ゼロの Kafka 環境構築
MSK Serverless によるクラスタ管理不要の Kafka 環境構築、IAM 認証、EventBridge Pipes との統合パターンを解説します。
Amazon OpenSearch Service で構築するログ分析基盤 - インデックス設計とダッシュボード構築
OpenSearch Service によるログ分析基盤の構築、インデックスライフサイクル管理、OpenSearch Dashboards の活用法を解説します。
プライバシー保護データ分析 - AWS Clean Rooms で安全にデータをコラボレーションする
AWS Clean Rooms を使ったプライバシー保護データ分析を解説。複数組織間のデータコラボレーション、分析ルールによるアクセス制御、差分プライバシーの活用を紹介します。
量子コンピューティングサービス - Amazon Braket で始める量子アルゴリズム開発
Amazon Braket を活用した量子コンピューティングの実践方法を解説します。量子回路シミュレーター、実機量子コンピューターへのアクセス、ハイブリッド量子古典アルゴリズムの実装など、量子技術の活用方法と Lambda との連携パターンを紹介します。
Amazon QuickSight で構築する BI ダッシュボード - サーバーレス分析と埋め込み可視化
QuickSight によるダッシュボードの作成、SPICE エンジンの活用、アプリケーションへの埋め込みを解説します。
リアルタイムデータストリーミング - Amazon Kinesis で実現する即時データ処理
Amazon Kinesis を活用したリアルタイムデータストリーミングの構築方法を解説します。
Amazon Redshift で構築するクラウドデータウェアハウス - Serverless と RA3 の使い分け
Amazon Redshift のアーキテクチャ、Serverless とプロビジョンドクラスタの選定基準、データ共有やマテリアライズドビューの活用法を解説します。
Amazon Redshift のパフォーマンスチューニング - 分散キー・ソートキー・WLM の最適化
Redshift の分散スタイルとソートキーの選定、ワークロード管理 (WLM) の設計、AQUA によるクエリ高速化を解説します。
ストリーミングデータ処理の設計 - Kinesis によるリアルタイムデータパイプラインの構築
Amazon Kinesis を活用したストリーミングデータ処理の設計手法を解説し、Data Streams、Data Firehose、Lambda 連携によるリアルタイムデータパイプラインの構築方法を紹介します。
動画トランスコーディング - AWS Elemental MediaConvert で実現するスケーラブルな映像変換基盤
AWS Elemental MediaConvert と S3 を活用した動画トランスコーディングパイプラインの構築方法を解説します。マルチフォーマット出力、HDR 対応、コスト効率の高いサーバーレス映像処理の実践手法を紹介します。