ストリーミングデータ処理の設計 - Kinesis によるリアルタイムデータパイプラインの構築

Amazon Kinesis を活用したストリーミングデータ処理の設計手法を解説し、Data Streams、Data Firehose、Lambda 連携によるリアルタイムデータパイプラインの構築方法を紹介します。

リアルタイムデータ処理の需要と Kinesis の役割

IoT デバイスからのセンサーデータ、Web アプリケーションのクリックストリーム、金融取引のログ、ソーシャルメディアのフィードなど、リアルタイムに生成される大量のデータを即座に処理・分析する需要が急速に拡大しています。バッチ処理では数時間から数日のタイムラグが生じますが、ストリーミング処理ではデータ生成から数秒以内に分析結果を得られます。Amazon Kinesis は、ストリーミングデータの収集、処理、分析をリアルタイムで行うフルマネージドサービス群です。Kinesis Data Streams はデータストリームの基盤、Kinesis Data Firehose はデータの配信、Kinesis Data Analytics はストリーミングデータの SQL/Apache Flink 分析を担います。

Kinesis Data Streams によるデータ収集

Kinesis Data Streams は、大量のストリーミングデータをリアルタイムに収集・保持するサービスです。データストリームはシャードで構成され、各シャードは秒間 1 MB の書き込みと 2 MB の読み取りをサポートします。オンデマンドモードでは、トラフィックに応じてシャード数が自動的にスケーリングされ、キャパシティプランニングが不要になります。プロビジョンドモードでは、シャード数を明示的に指定してコストを最適化できます。データの保持期間はデフォルト 24 時間で、最大 365 日まで延長可能です。Kinesis Producer Library (KPL) を使用すれば、レコードの集約とバッファリングにより、プロデューサー側のスループットを最大化できます。拡張ファンアウト機能により、コンシューマーごとに専用の読み取りスループット (シャードあたり 2 MB/秒) が確保され、複数のコンシューマーが同一ストリームを並行して処理できます。

Lambda 連携によるサーバーレスストリーム処理

Kinesis Data Streams と Lambda の統合は、サーバーレスなストリーム処理パターンとして広く採用されています。 Lambda はイベントソースマッピングにより、 Kinesis ストリームからレコードを自動的にポーリングし、バッチ単位で Lambda 関数に渡します。バッチサイズ、バッチウィンドウ、並列化係数を調整することで、スループットとレイテンシのバランスを最適化できます。並列化係数を設定すれば、単一シャードに対して複数の Lambda インスタンスが並行処理を行い、処理能力を向上させます。エラーハンドリングでは、 bisect on function error 機能により、失敗したバッチを自動的に二分割してリトライし、問題のあるレコードを特定します。処理に失敗したレコードは SQS デッドレターキューに送信でき、後続の調査と再処理が可能です。フィルタリング機能を使えば、 Lambda 関数に渡す前にレコードを条件でフィルタリングし、不要なレコードの処理を回避できます。 Lambda のイベントソースマッピングでフィルタリングを設定する CLI 例: aws lambda create-event-source-mapping --function-name process-orders --event-source-arn arn:aws:kinesis:ap-northeast-1:123456789012:stream/orders --starting-position LATEST --batch-size 100 --maximum-batching-window-in-seconds 5 --filter-criteria "{"Filters":[{"Pattern":"{\"data\":{\"event_type\":[\"ORDER_PLACED\"]}}"}]}" で ORDER_PLACED イベントのみを Lambda に渡し、不要なレコードの処理を回避してコストを最適化します。 リアルタイムデータ処理の基礎から応用まで、書籍 (Amazon)で体系的に学べます。

Data Firehose による配信と S3 連携

Kinesis Data Firehose は、ストリーミングデータを S3、Redshift、OpenSearch、Splunk などの宛先に自動配信するサービスです。データの受信からバッファリング、変換、圧縮、配信までを完全に自動化し、コンシューマーアプリケーションの開発が不要になります。バッファサイズ (1 - 128 MB) とバッファ間隔 (60 - 900 秒) を設定し、配信の頻度とバッチサイズを制御できます。データ変換機能では、Lambda 関数を使用して配信前にレコードのフォーマット変換、フィルタリング、エンリッチメントを実行できます。S3 への配信では、Parquet や ORC 形式への自動変換が可能で、Athena や Redshift Spectrum での分析に最適化されたデータレイクを構築できます。動的パーティショニング機能により、レコードの内容に基づいて S3 のプレフィックスを動的に決定し、効率的なデータ整理を実現します。

Kinesis の料金

Kinesis Data Streams のオンデマンドモードは 1 GB あたり約 0.08 ドル (書き込み) と約 0.04 ドル (読み取り) です。プロビジョンドモードは 1 シャード時間あたり約 0.015 ドルです。Kinesis Data Firehose は 1 GB あたり約 0.029 ドルです。MSK (Kafka) と比較すると、Kinesis は AWS サービスとのネイティブ統合が豊富で、小〜中規模のストリーミングではコスト効率が高いです。大規模で Kafka エコシステムが必要な場合は MSK を選択します。

まとめ

Amazon Kinesis は、ストリーミングデータの収集から処理、配信までを包括的にカバーするフルマネージドサービス群として、リアルタイムデータパイプラインの構築を支援します。Data Streams のオンデマンドモードにより、キャパシティプランニング不要でスケーラブルなデータ収集が実現します。Lambda との統合によるサーバーレスストリーム処理は、インフラ管理なしでリアルタイムデータの変換・分析を可能にします。Data Firehose は S3 への自動配信と Parquet 変換により、分析に最適化されたデータレイクの構築を自動化します。リアルタイムデータ処理基盤の構築を目指す組織にとって、Kinesis は中核的なサービスです。