ストリーミングデータ処理の設計 - Kinesis によるリアルタイムデータパイプラインの構築

Amazon Kinesis を活用したストリーミングデータ処理の設計手法を解説し、Data Streams、Data Firehose、Lambda 連携によるリアルタイムデータパイプラインの構築方法を紹介します。

約 3 分で読めます最終更新: 2025-10-13

リアルタイムデータ処理の需要と Kinesis の役割

IoT デバイスからのセンサーデータ、Web アプリケーションのクリックストリーム、金融取引のログ、ソーシャルメディアのフィードなど、リアルタイムに生成される大量のデータを即座に処理・分析する需要が急速に拡大しています。バッチ処理では数時間から数日のタイムラグが生じますが、ストリーミング処理ではデータ生成から数秒以内に分析結果を得られます。Amazon Kinesis は、ストリーミングデータの収集、処理、分析をリアルタイムで行うフルマネージドサービス群です。Kinesis Data Streams はデータストリームの基盤、Kinesis Data Firehose はデータの配信、Kinesis Data Analytics はストリーミングデータの SQL/Apache Flink 分析を担います。

Kinesis Data Streams によるデータ収集

Kinesis Data Streams は、大量のストリーミングデータをリアルタイムに収集・保持するサービスです。データストリームはシャードで構成され、各シャードは秒間 1 MB の書き込みと 2 MB の読み取りをサポートします。オンデマンドモードでは、トラフィックに応じてシャード数が自動的にスケーリングされ、キャパシティプランニングが不要になります。プロビジョンドモードでは、シャード数を明示的に指定してコストを最適化できます。データの保持期間はデフォルト 24 時間で、最大 365 日まで延長可能です。Kinesis Producer Library (KPL) を使用すれば、レコードの集約とバッファリングにより、プロデューサー側のスループットを最大化できます。拡張ファンアウト機能により、コンシューマーごとに専用の読み取りスループット (シャードあたり 2 MB/秒) が確保され、複数のコンシューマーが同一ストリームを並行して処理できます。

Lambda 連携によるサーバーレスストリーム処理

Kinesis Data Streams と Lambda の統合は、サーバーレスなストリーム処理パターンとして広く採用されています。 Lambda はイベントソースマッピングにより、 Kinesis ストリームからレコードを自動的にポーリングし、バッチ単位で Lambda 関数に渡します。バッチサイズ、バッチウィンドウ、並列化係数を調整することで、スループットとレイテンシのバランスを最適化できます。並列化係数を設定すれば、単一シャードに対して複数の Lambda インスタンスが並行処理を行い、処理能力を向上させます。エラーハンドリングでは、 bisect on function error 機能により、失敗したバッチを自動的に二分割してリトライし、問題のあるレコードを特定します。処理に失敗したレコードは SQS デッドレターキューに送信でき、後続の調査と再処理が可能です。フィルタリング機能を使えば、 Lambda 関数に渡す前にレコードを条件でフィルタリングし、不要なレコードの処理を回避できます。 Lambda のイベントソースマッピングでフィルタリングを設定する CLI 例: aws lambda create-event-source-mapping --function-name process-orders --event-source-arn arn:aws:kinesis:ap-northeast-1:123456789012:stream/orders --starting-position LATEST --batch-size 100 --maximum-batching-window-in-seconds 5 --filter-criteria "{"Filters":[{"Pattern":"{\"data\":{\"event_type\":[\"ORDER_PLACED\"]}}"}]}" で ORDER_PLACED イベントのみを Lambda に渡し、不要なレコードの処理を回避してコストを最適化します。リアルタイムデータ処理の基礎から応用まで、書籍 (Amazon)で体系的に学べます。

Data Firehose による配信と S3 連携

Kinesis Data Firehose は、ストリーミングデータを S3、Redshift、OpenSearch、Splunk などの宛先に自動配信するサービスです。データの受信からバッファリング、変換、圧縮、配信までを完全に自動化し、コンシューマーアプリケーションの開発が不要になります。バッファサイズ (1 - 128 MB) とバッファ間隔 (60 - 900 秒) を設定し、配信の頻度とバッチサイズを制御できます。データ変換機能では、Lambda 関数を使用して配信前にレコードのフォーマット変換、フィルタリング、エンリッチメントを実行できます。S3 への配信では、Parquet や ORC 形式への自動変換が可能で、Athena や Redshift Spectrum での分析に最適化されたデータレイクを構築できます。動的パーティショニング機能により、レコードの内容に基づいて S3 のプレフィックスを動的に決定し、効率的なデータ整理を実現します。

Kinesis の料金

Kinesis Data Streams のオンデマンドモードは 1 GB あたり約 0.08 ドル (書き込み) と約 0.04 ドル (読み取り) です。プロビジョンドモードは 1 シャード時間あたり約 0.015 ドルです。Kinesis Data Firehose は 1 GB あたり約 0.029 ドルです。MSK (Kafka) と比較すると、Kinesis は AWS サービスとのネイティブ統合が豊富で、小〜中規模のストリーミングではコスト効率が高いです。大規模で Kafka エコシステムが必要な場合は MSK を選択します。

まとめ

Amazon Kinesis は、ストリーミングデータの収集から処理、配信までを包括的にカバーするフルマネージドサービス群として、リアルタイムデータパイプラインの構築を支援します。Data Streams のオンデマンドモードにより、キャパシティプランニング不要でスケーラブルなデータ収集が実現します。Lambda との統合によるサーバーレスストリーム処理は、インフラ管理なしでリアルタイムデータの変換・分析を可能にします。Data Firehose は S3 への自動配信と Parquet 変換により、分析に最適化されたデータレイクの構築を自動化します。リアルタイムデータ処理基盤の構築を目指す組織にとって、Kinesis は中核的なサービスです。

Amazon Quick の実践活用 - 部門別ユースケースとワークフロー自動化の設計パターン営業・IT・財務など部門ごとの活用シナリオと、Quick Flows による通知・承認・多段階ワークフローの設計パターンを具体的に紹介します。BI ダッシュボード可視化 - Amazon QuickSight で実現するデータドリブンな意思決定基盤Amazon QuickSight によるインタラクティブな BI ダッシュボードの構築と、Athena との連携によるサーバーレスデータ分析基盤を解説します。SPICE エンジンによる高速可視化と組織全体へのインサイト共有の実践手法を紹介します。ブロックチェーンネットワーク構築 - Amazon Managed Blockchain と QLDB による分散台帳の活用Amazon Managed Blockchain によるブロックチェーンネットワークの構築と、Amazon QLDB による検証可能な台帳データベースの活用方法を解説します。サプライチェーン管理や金融取引の透明性確保など、実践的なユースケースを紹介します。AWS Clean Rooms で実現するプライバシー保護型データコラボレーションデータを共有・コピーせずに複数企業間で共同分析を実行する。集計ルールによる個人特定防止と Cryptographic Computing による暗号化分析を紹介します。顧客 ID 統合 - AWS Entity Resolution で分散した顧客データを名寄せするAWS Entity Resolution を使った顧客データの名寄せ (エンティティ解決) を解説。ML ベースのマッチング、ルールベースのマッチング、プライバシー保護、Clean Rooms との統合を紹介します。AWS Data Exchange で活用するサードパーティデータ - データ調達とサブスクリプション管理サードパーティのデータ製品を Marketplace 経由で調達し、S3 への自動配信パイプラインを構築する。自社データの製品化と収益化の手法も紹介します。Amazon S3 と Lake Formation で構築するデータレイク - 設計パターンとガバナンスS3 をストレージ基盤とし Lake Formation できめ細かいアクセス制御を実現するデータレイクの設計パターンを紹介。ETL パイプラインとコスト最適化も解説します。データレイクガバナンス - AWS Lake Formation による一元的なアクセス制御AWS Lake Formation を使ったデータレイクの構築・アクセス制御・ガバナンスを解説。S3 ベースのデータレイクに対する列レベル・行レベルのきめ細かな権限管理と Glue ・ Athena との統合を紹介します。

リアルタイムデータ処理の需要と Kinesis の役割

Kinesis Data Streams によるデータ収集

Lambda 連携によるサーバーレスストリーム処理

Data Firehose による配信と S3 連携

Kinesis の料金

まとめ

関連するサービス

関連する記事

同じテーマの記事

内容が近い記事・サービス