Amazon Rekognition で実装する画像・動画分析 - ラベル検出からカスタムモデルまで

事前トレーニング済み API でラベル検出・顔分析・テキスト検出を実装し、Custom Labels でドメイン固有の画像認識モデルを構築する手法を紹介します。

Rekognition の主要機能

Rekognition は事前トレーニング済みの深層学習モデルを API として提供する画像・動画分析サービスです。主要な機能は、ラベル検出 (オブジェクト・シーンの分類)、顔検出・分析 (年齢範囲、感情、顔の向き)、テキスト検出 (画像内の文字認識)、コンテンツモデレーション (不適切コンテンツの検出)、顔比較 (2 つの顔の類似度判定) です。すべて API コールで利用でき、ML モデルのトレーニングやインフラ管理は不要です。料金は処理した画像・動画の量に応じた従量課金で、月間 5,000 枚までの画像分析は無料利用枠に含まれます。

ラベル検出とテキスト検出の実装

DetectLabels API は画像を S3 バケットまたは Base64 エンコードのバイト列で受け取り、検出されたラベル (例: Car、Tree、Person) と信頼度スコア (0-100%) を返します。MinConfidence パラメータで信頼度の閾値を設定し、誤検出を制御できます。バウンディングボックスの座標も返されるため、画像内のどこにオブジェクトがあるかを特定できます。DetectText API は画像内の印刷テキストや手書きテキストを検出し、文字列として抽出します。1 画像あたり最大 100 個のテキスト要素を検出でき、各テキストの位置情報と信頼度スコアが返されます。製造ラインでの製品ラベル読み取り、駐車場でのナンバープレート認識、書類のデジタル化など、幅広い OCR ユースケースに対応します。

Custom Labels による独自モデル構築

Custom Labels は、 Rekognition の事前トレーニング済みモデルでは対応できない独自の分類・検出タスクに対応する機能です。例えば、製造ラインでの不良品検出、小売店での商品棚分析、農業での作物の病害検出など、ドメイン固有の画像認識が必要な場面で活用します。モデル構築に必要な教師データは数十枚程度から始められます。 S3 に画像をアップロードし、 Rekognition コンソールまたは SageMaker Ground Truth でラベル付けを行い、トレーニングを開始します。トレーニング完了後は推論エンドポイントを起動し、 API 経由で独自モデルの推論を実行できます。推論エンドポイントは時間課金のため、使用しない時間帯は停止してコストを抑えます。 Rekognition について体系的に学びたい方は、関連書籍 (Amazon)も参考になります。

Rekognition の料金

Rekognition の料金は処理した画像枚数に基づく従量課金です。ラベル検出は最初の 100 万枚/月が 1,000 枚あたり約 1.00 ドル、顔検出は 1,000 枚あたり約 1.00 ドル、テキスト検出は 1,000 枚あたり約 1.00 ドルです。月間 5,000 枚までの画像分析は無料利用枠に含まれます。Custom Labels は推論エンドポイントの時間課金 (1 時間あたり約 4.00 ドル) が主要なコストで、使用しない時間帯は停止してコストを抑えます。トレーニングは 1 時間あたり約 1.00 ドルです。

まとめ

Rekognition は ML の専門知識なしで画像・動画分析を実装できるサービスです。事前トレーニング済みの API で一般的なユースケースをカバーし、Custom Labels でドメイン固有の要件にも対応できます。S3 と Lambda を組み合わせたイベント駆動アーキテクチャにより、画像アップロードをトリガーにした自動分析パイプラインを構築できます。