Amazon Rekognition で実装する画像・動画分析 - ラベル検出からカスタムモデルまで
Amazon Rekognition の画像ラベル検出、顔分析、テキスト検出、カスタムラベルによる独自モデル構築の手法を解説します。
Rekognition の主要機能
Rekognition は事前トレーニング済みの深層学習モデルを API として提供する画像・動画分析サービスです。主要な機能は、ラベル検出 (オブジェクト・シーンの分類)、顔検出・分析 (年齢範囲、感情、顔の向き)、テキスト検出 (画像内の文字認識)、コンテンツモデレーション (不適切コンテンツの検出)、顔比較 (2 つの顔の類似度判定) です。すべて API コールで利用でき、ML モデルのトレーニングやインフラ管理は不要です。料金は処理した画像・動画の量に応じた従量課金で、月間 5,000 枚までの画像分析は無料利用枠に含まれます。
この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
ラベル検出とテキスト検出の実装
DetectLabels API は画像を S3 バケットまたは Base64 エンコードのバイト列で受け取り、検出されたラベル (例: Car、Tree、Person) と信頼度スコア (0-100%) を返します。MinConfidence パラメータで信頼度の閾値を設定し、誤検出を制御できます。バウンディングボックスの座標も返されるため、画像内のどこにオブジェクトがあるかを特定できます。DetectText API は画像内の印刷テキストや手書きテキストを検出し、文字列として抽出します。1 画像あたり最大 100 個のテキスト要素を検出でき、各テキストの位置情報と信頼度スコアが返されます。製造ラインでの製品ラベル読み取り、駐車場でのナンバープレート認識、書類のデジタル化など、幅広い OCR ユースケースに対応します。
Custom Labels による独自モデル構築
Custom Labels は、Rekognition の事前トレーニング済みモデルでは対応できない独自の分類・検出タスクに対応する機能です。例えば、製造ラインでの不良品検出、小売店での商品棚分析、農業での作物の病害検出など、ドメイン固有の画像認識が必要な場面で活用します。モデル構築に必要な教師データは数十枚程度から始められます。S3 に画像をアップロードし、Rekognition コンソールまたは SageMaker Ground Truth でラベル付けを行い、トレーニングを開始します。トレーニング完了後は推論エンドポイントを起動し、API 経由で独自モデルの推論を実行できます。推論エンドポイントは時間課金のため、使用しない時間帯は停止してコストを抑えます。
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。
まとめ
Rekognition は ML の専門知識なしで画像・動画分析を実装できるサービスです。事前トレーニング済みの API で一般的なユースケースをカバーし、Custom Labels でドメイン固有の要件にも対応できます。S3 と Lambda を組み合わせたイベント駆動アーキテクチャにより、画像アップロードをトリガーにした自動分析パイプラインを構築できます。
AWS の優位点
- DetectLabels API で画像内のオブジェクト、シーン、アクティビティを数千カテゴリから自動検出し、信頼度スコアとバウンディングボックスを返す
- DetectText API で画像内のテキストを検出・抽出でき、看板、ナンバープレート、ドキュメントの OCR に活用できる
- Custom Labels で独自の画像分類・物体検出モデルを少量の教師データ (数十枚程度) から構築でき、ML の専門知識が不要
- Video API で動画のフレーム単位分析を非同期実行し、SNS 通知で完了を検知するイベント駆動アーキテクチャを構築できる
- Content Moderation API で不適切なコンテンツを自動検出し、UGC プラットフォームの安全性を確保できる