AWS Glue で構築する ETL パイプライン - クローラーとジョブの設計

クローラーでスキーマを自動検出し、Glue ジョブで ETL 処理を実行する。データカタログの活用パターンと Glue Studio によるビジュアル開発を紹介します。

約 2 分で読めます最終更新: 2025-12-20

クローラーとデータカタログ

Glue クローラーは S3、RDS、Redshift、DynamoDB など 30 以上のデータソースを自動スキャンし、スキーマ (テーブル定義、カラム名、データ型) を検出してデータカタログに登録します。S3 のパスを指定すると、ファイル形式 (CSV、JSON、Parquet、ORC など) を自動判別し、パーティション構造も検出します。クローラーのスケジュール実行で新しいパーティションやスキーマ変更を自動的にカタログに反映できます。データカタログは Hive メタストア互換で、Athena、Redshift Spectrum、EMR から共通のテーブル定義を参照してクエリを実行できます。

Glue ジョブの設計

Glue ジョブは Python (PySpark) または Scala で ETL スクリプトを記述し、サーバーレスの Spark 環境で実行します。DynamicFrame は Glue 独自のデータ構造で、同一カラムに異なるデータ型が混在するスキーマの不整合を ResolveChoice で柔軟に処理します。Glue Studio のビジュアルエディターではソース (S3、RDS、Kafka など)、変換 (フィルター、結合、集計)、ターゲット (S3、Redshift、DynamoDB など) をノードとして配置し、ノーコードで ETL ジョブを設計できます。ジョブブックマークは処理済みデータの位置を記録し、次回実行時に未処理データのみを対象とする増分処理を実現します。

データ品質と Glue Studio

Glue Data Quality はデータ品質ルール (DQDL) を定義し、 ETL パイプライン内でデータの検証を自動実行します。完全性 (NULL 値の割合)、一意性 (重複チェック)、参照整合性 (外部キーの存在確認) などのルールを宣言的に記述し、品質スコアが閾値を下回った場合にジョブを停止またはアラートを発行します。 Glue Studio はビジュアル ETL エディターで、ドラッグ&ドロップでソース、変換、ターゲットを接続し、コーディングなしで ETL ジョブを構築できます。ノートブック環境で PySpark コードを対話的にテストし、本番ジョブに変換するワークフローも提供します。 Glue のバージョニングでジョブスクリプトの変更履歴を管理し、問題発生時にロールバックできます。 ETL の分析手法を深く理解するには、専門書籍 (Amazon)が役立ちます。

Glue のコスト最適化

Glue ジョブの料金は DPU (Data Processing Unit) 時間で課金され、1 DPU は 4 vCPU と 16 GB メモリに相当します。Glue 4.0 は Auto Scaling でジョブの負荷に応じて DPU 数を自動調整し、過剰なリソース割り当てを防止します。Flex 実行クラスは非緊急のバッチジョブ向けで、標準実行より約 35% 安価です。クローラーの実行頻度をデータ更新頻度に合わせて最適化し、不要なスキャンを避けます。ジョブブックマークで前回処理済みのデータをスキップし、増分処理でコストと処理時間を削減します。CloudWatch メトリクスで DPU 使用率を監視し、常に低い使用率のジョブは DPU 数を削減します。

まとめ

Glue はクローラーによるスキーマ自動検出、サーバーレスの Spark ベース ETL ジョブ、Hive 互換のデータカタログを統合的に提供します。Data Quality でデータ品質ルールを自動検証し、Glue Studio のビジュアルエディターでコーディングなしに ETL ジョブを構築できます。ジョブブックマークで増分処理を実現し、Flex 実行クラスで非緊急ジョブのコストを約 35% 削減します。

Amazon Quick の実践活用 - 部門別ユースケースとワークフロー自動化の設計パターン営業・IT・財務など部門ごとの活用シナリオと、Quick Flows による通知・承認・多段階ワークフローの設計パターンを具体的に紹介します。BI ダッシュボード可視化 - Amazon QuickSight で実現するデータドリブンな意思決定基盤Amazon QuickSight によるインタラクティブな BI ダッシュボードの構築と、Athena との連携によるサーバーレスデータ分析基盤を解説します。SPICE エンジンによる高速可視化と組織全体へのインサイト共有の実践手法を紹介します。ブロックチェーンネットワーク構築 - Amazon Managed Blockchain と QLDB による分散台帳の活用Amazon Managed Blockchain によるブロックチェーンネットワークの構築と、Amazon QLDB による検証可能な台帳データベースの活用方法を解説します。サプライチェーン管理や金融取引の透明性確保など、実践的なユースケースを紹介します。AWS Clean Rooms で実現するプライバシー保護型データコラボレーションデータを共有・コピーせずに複数企業間で共同分析を実行する。集計ルールによる個人特定防止と Cryptographic Computing による暗号化分析を紹介します。顧客 ID 統合 - AWS Entity Resolution で分散した顧客データを名寄せするAWS Entity Resolution を使った顧客データの名寄せ (エンティティ解決) を解説。ML ベースのマッチング、ルールベースのマッチング、プライバシー保護、Clean Rooms との統合を紹介します。AWS Data Exchange で活用するサードパーティデータ - データ調達とサブスクリプション管理サードパーティのデータ製品を Marketplace 経由で調達し、S3 への自動配信パイプラインを構築する。自社データの製品化と収益化の手法も紹介します。Amazon S3 と Lake Formation で構築するデータレイク - 設計パターンとガバナンスS3 をストレージ基盤とし Lake Formation できめ細かいアクセス制御を実現するデータレイクの設計パターンを紹介。ETL パイプラインとコスト最適化も解説します。データレイクガバナンス - AWS Lake Formation による一元的なアクセス制御AWS Lake Formation を使ったデータレイクの構築・アクセス制御・ガバナンスを解説。S3 ベースのデータレイクに対する列レベル・行レベルのきめ細かな権限管理と Glue ・ Athena との統合を紹介します。

クローラーとデータカタログ

Glue ジョブの設計

データ品質と Glue Studio

Glue のコスト最適化

まとめ

関連するサービス

関連する記事

同じテーマの記事

内容が近い記事・サービス