ストリーミングデータ処理の設計 - Kinesis によるリアルタイムデータパイプラインの構築

Amazon Kinesis を活用したストリーミングデータ処理の設計手法を解説し、Data Streams、Data Firehose、Lambda 連携によるリアルタイムデータパイプラインの構築方法を紹介します。

約 3 分で読めます最終更新: 2026-03-30

リアルタイムデータ処理の需要と Kinesis の役割

IoT デバイスからのセンサーデータ、Web アプリケーションのクリックストリーム、金融取引のログ、ソーシャルメディアのフィードなど、リアルタイムに生成される大量のデータを即座に処理・分析する需要が急速に拡大しています。バッチ処理では数時間から数日のタイムラグが生じますが、ストリーミング処理ではデータ生成から数秒以内に分析結果を得られます。Amazon Kinesis は、ストリーミングデータの収集、処理、分析をリアルタイムで行うフルマネージドサービス群です。Kinesis Data Streams はデータストリームの基盤、Kinesis Data Firehose はデータの配信、Kinesis Data Analytics はストリーミングデータの SQL/Apache Flink 分析を担います。

この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。

Kinesis Data Streams によるデータ収集

Kinesis Data Streams は、大量のストリーミングデータをリアルタイムに収集・保持するサービスです。データストリームはシャードで構成され、各シャードは秒間 1 MB の書き込みと 2 MB の読み取りをサポートします。オンデマンドモードでは、トラフィックに応じてシャード数が自動的にスケーリングされ、キャパシティプランニングが不要になります。プロビジョンドモードでは、シャード数を明示的に指定してコストを最適化できます。データの保持期間はデフォルト 24 時間で、最大 365 日まで延長可能です。Kinesis Producer Library (KPL) を使用すれば、レコードの集約とバッファリングにより、プロデューサー側のスループットを最大化できます。拡張ファンアウト機能により、コンシューマーごとに専用の読み取りスループット (シャードあたり 2 MB/秒) が確保され、複数のコンシューマーが同一ストリームを並行して処理できます。

Lambda 連携によるサーバーレスストリーム処理

Kinesis Data Streams と Lambda の統合は、サーバーレスなストリーム処理パターンとして広く採用されています。Lambda はイベントソースマッピングにより、Kinesis ストリームからレコードを自動的にポーリングし、バッチ単位で Lambda 関数に渡します。バッチサイズ、バッチウィンドウ、並列化係数を調整することで、スループットとレイテンシのバランスを最適化できます。並列化係数を設定すれば、単一シャードに対して複数の Lambda インスタンスが並行処理を行い、処理能力を向上させます。エラーハンドリングでは、bisect on function error 機能により、失敗したバッチを自動的に二分割してリトライし、問題のあるレコードを特定します。処理に失敗したレコードは SQS デッドレターキューに送信でき、後続の調査と再処理が可能です。フィルタリング機能を使えば、Lambda 関数に渡す前にレコードを条件でフィルタリングし、不要なレコードの処理を回避できます。 Lambda のイベントソースマッピングでフィルタリングを設定する CLI 例: aws lambda create-event-source-mapping --function-name process-orders --event-source-arn arn:aws:kinesis:ap-northeast-1:123456789012:stream/orders --starting-position LATEST --batch-size 100 --maximum-batching-window-in-seconds 5 --filter-criteria "{"Filters":[{"Pattern":"{\"data\":{\"event_type\":[\"ORDER_PLACED\"]}}"}]}" で ORDER_PLACED イベントのみを Lambda に渡し、不要なレコードの処理を回避してコストを最適化します。

Data Firehose による配信と S3 連携

Kinesis Data Firehose は、ストリーミングデータを S3、Redshift、OpenSearch、Splunk などの宛先に自動配信するサービスです。データの受信からバッファリング、変換、圧縮、配信までを完全に自動化し、コンシューマーアプリケーションの開発が不要になります。バッファサイズ (1 - 128 MB) とバッファ間隔 (60 - 900 秒) を設定し、配信の頻度とバッチサイズを制御できます。データ変換機能では、Lambda 関数を使用して配信前にレコードのフォーマット変換、フィルタリング、エンリッチメントを実行できます。S3 への配信では、Parquet や ORC 形式への自動変換が可能で、Athena や Redshift Spectrum での分析に最適化されたデータレイクを構築できます。動的パーティショニング機能により、レコードの内容に基づいて S3 のプレフィックスを動的に決定し、効率的なデータ整理を実現します。

さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。

まとめ

Amazon Kinesis は、ストリーミングデータの収集から処理、配信までを包括的にカバーするフルマネージドサービス群として、リアルタイムデータパイプラインの構築を支援します。Data Streams のオンデマンドモードにより、キャパシティプランニング不要でスケーラブルなデータ収集が実現します。Lambda との統合によるサーバーレスストリーム処理は、インフラ管理なしでリアルタイムデータの変換・分析を可能にします。Data Firehose は S3 への自動配信と Parquet 変換により、分析に最適化されたデータレイクの構築を自動化します。リアルタイムデータ処理基盤の構築を目指す組織にとって、Kinesis は中核的なサービスです。

AWS の優位点

Kinesis Data Streams のオンデマンドモードにより、シャード数が自動スケーリングされ、キャパシティプランニングが不要になる
拡張ファンアウト機能でコンシューマーごとに専用の読み取りスループットが確保され、複数コンシューマーの並行処理が可能
Lambda 統合によるサーバーレスストリーム処理で、並列化係数とフィルタリング機能によりスループットとコストを最適化できる
bisect on function error 機能が失敗バッチを自動二分割してリトライし、問題レコードの特定と SQS デッドレターキューへの送信を実現する
Data Firehose が S3 への自動配信と Parquet/ORC 形式への変換を提供し、分析に最適化されたデータレイクを自動構築できる
動的パーティショニングによりレコード内容に基づく S3 プレフィックスの自動決定で、効率的なデータ整理を実現する

同じテーマの記事