Amazon Rekognition で実装する画像・動画分析 - ラベル検出からカスタムモデルまで
Amazon Rekognition の画像ラベル検出、顔分析、テキスト検出、カスタムラベルによる独自モデル構築の手法を解説します。
Rekognition の主要機能
この記事は約 4 分で読めます。 Rekognition は事前トレーニング済みの深層学習モデルを API として提供する画像・動画分析サービスです。主要な機能は、ラベル検出 (オブジェクト・シーンの分類)、顔検出・分析 (年齢範囲、感情、顔の向き)、テキスト検出 (画像内の文字認識)、コンテンツモデレーション (不適切コンテンツの検出)、顔比較 (2 つの顔の類似度判定) です。すべて API コールで利用でき、ML モデルのトレーニングやインフラ管理は不要です。料金は処理した画像・動画の量に応じた従量課金で、月間 5,000 枚までの画像分析は無料利用枠に含まれます。
この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
ラベル検出とテキスト検出の実装
DetectLabels API は画像を S3 バケットまたは Base64 エンコードのバイト列で受け取り、検出されたラベル (例: Car、Tree、Person) と信頼度スコア (0-100%) を返します。MinConfidence パラメータで信頼度の閾値を設定し、誤検出を制御できます。バウンディングボックスの座標も返されるため、画像内のどこにオブジェクトがあるかを特定できます。DetectText API は画像内の印刷テキストや手書きテキストを検出し、文字列として抽出します。1 画像あたり最大 100 個のテキスト要素を検出でき、各テキストの位置情報と信頼度スコアが返されます。製造ラインでの製品ラベル読み取り、駐車場でのナンバープレート認識、書類のデジタル化など、幅広い OCR ユースケースに対応します。
Custom Labels による独自モデル構築
Custom Labels は、Rekognition の事前トレーニング済みモデルでは対応できない独自の分類・検出タスクに対応する機能です。例えば、製造ラインでの不良品検出、小売店での商品棚分析、農業での作物の病害検出など、ドメイン固有の画像認識が必要な場面で活用します。モデル構築に必要な教師データは数十枚程度から始められます。S3 に画像をアップロードし、Rekognition コンソールまたは SageMaker Ground Truth でラベル付けを行い、トレーニングを開始します。トレーニング完了後は推論エンドポイントを起動し、API 経由で独自モデルの推論を実行できます。推論エンドポイントは時間課金のため、使用しない時間帯は停止してコストを抑えます。
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。
まとめ
Rekognition は ML の専門知識なしで画像・動画分析を実装できるサービスです。事前トレーニング済みの API で一般的なユースケースをカバーし、Custom Labels でドメイン固有の要件にも対応できます。S3 と Lambda を組み合わせたイベント駆動アーキテクチャにより、画像アップロードをトリガーにした自動分析パイプラインを構築できます。
AWS の優位点
- DetectLabels API で画像内のオブジェクト、シーン、アクティビティを数千カテゴリから自動検出し、信頼度スコアとバウンディングボックスを返す
- DetectText API で画像内のテキストを検出・抽出でき、看板、ナンバープレート、ドキュメントの OCR に活用できる
- Custom Labels で独自の画像分類・物体検出モデルを少量の教師データ (数十枚程度) から構築でき、ML の専門知識が不要
- Video API で動画のフレーム単位分析を非同期実行し、SNS 通知で完了を検知するイベント駆動アーキテクチャを構築できる
- Content Moderation API で不適切なコンテンツを自動検出し、UGC プラットフォームの安全性を確保できる