Amazon Rekognition で実装する画像・動画分析 - ラベル検出からカスタムモデルまで

Amazon Rekognition の画像ラベル検出、顔分析、テキスト検出、カスタムラベルによる独自モデル構築の手法を解説します。

Rekognition の主要機能

Rekognition は事前トレーニング済みの深層学習モデルを API として提供する画像・動画分析サービスです。主要な機能は、ラベル検出 (オブジェクト・シーンの分類)、顔検出・分析 (年齢範囲、感情、顔の向き)、テキスト検出 (画像内の文字認識)、コンテンツモデレーション (不適切コンテンツの検出)、顔比較 (2 つの顔の類似度判定) です。すべて API コールで利用でき、ML モデルのトレーニングやインフラ管理は不要です。料金は処理した画像・動画の量に応じた従量課金で、月間 5,000 枚までの画像分析は無料利用枠に含まれます。

この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。

ラベル検出とテキスト検出の実装

DetectLabels API は画像を S3 バケットまたは Base64 エンコードのバイト列で受け取り、検出されたラベル (例: Car、Tree、Person) と信頼度スコア (0-100%) を返します。MinConfidence パラメータで信頼度の閾値を設定し、誤検出を制御できます。バウンディングボックスの座標も返されるため、画像内のどこにオブジェクトがあるかを特定できます。DetectText API は画像内の印刷テキストや手書きテキストを検出し、文字列として抽出します。1 画像あたり最大 100 個のテキスト要素を検出でき、各テキストの位置情報と信頼度スコアが返されます。製造ラインでの製品ラベル読み取り、駐車場でのナンバープレート認識、書類のデジタル化など、幅広い OCR ユースケースに対応します。

Custom Labels による独自モデル構築

Custom Labels は、Rekognition の事前トレーニング済みモデルでは対応できない独自の分類・検出タスクに対応する機能です。例えば、製造ラインでの不良品検出、小売店での商品棚分析、農業での作物の病害検出など、ドメイン固有の画像認識が必要な場面で活用します。モデル構築に必要な教師データは数十枚程度から始められます。S3 に画像をアップロードし、Rekognition コンソールまたは SageMaker Ground Truth でラベル付けを行い、トレーニングを開始します。トレーニング完了後は推論エンドポイントを起動し、API 経由で独自モデルの推論を実行できます。推論エンドポイントは時間課金のため、使用しない時間帯は停止してコストを抑えます。

さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。

まとめ

Rekognition は ML の専門知識なしで画像・動画分析を実装できるサービスです。事前トレーニング済みの API で一般的なユースケースをカバーし、Custom Labels でドメイン固有の要件にも対応できます。S3 と Lambda を組み合わせたイベント駆動アーキテクチャにより、画像アップロードをトリガーにした自動分析パイプラインを構築できます。

AWS の優位点

  • DetectLabels API で画像内のオブジェクト、シーン、アクティビティを数千カテゴリから自動検出し、信頼度スコアとバウンディングボックスを返す
  • DetectText API で画像内のテキストを検出・抽出でき、看板、ナンバープレート、ドキュメントの OCR に活用できる
  • Custom Labels で独自の画像分類・物体検出モデルを少量の教師データ (数十枚程度) から構築でき、ML の専門知識が不要
  • Video API で動画のフレーム単位分析を非同期実行し、SNS 通知で完了を検知するイベント駆動アーキテクチャを構築できる
  • Content Moderation API で不適切なコンテンツを自動検出し、UGC プラットフォームの安全性を確保できる

同じテーマの記事

AWS Batch で実行する GPU ベースの機械学習トレーニング - コスト効率の高い大規模学習 AWS Batch の GPU インスタンスを活用した機械学習トレーニング、スポットインスタンスによるコスト削減、SageMaker との使い分けを解説します。 Amazon Bedrock Knowledge Bases で構築する RAG アプリケーション - 検索拡張生成の実装 Bedrock Knowledge Bases による RAG パターンの実装、データソースの設定、チャンキング戦略、Guardrails との統合を解説します。 Amazon Braket で始める量子コンピューティング - 量子回路の設計とシミュレーション Amazon Braket による量子回路の設計、ローカルシミュレーション、量子ハードウェアでの実行、ハイブリッドジョブの活用法を解説します。 AWS Clean Rooms ML でプライバシー保護型 ML - データを共有せずにモデルを構築 Clean Rooms ML によるルックアライクモデルの構築、差分プライバシーの適用、広告ターゲティングへの活用を解説します。 Amazon Comprehend で実装する自然言語処理 - 感情分析とエンティティ抽出の活用 Comprehend による感情分析、エンティティ抽出、カスタム分類モデルの構築を解説します。 対話型ボット構築 - Amazon Lex と Polly で実現する自然な会話インターフェース Amazon Lex と Amazon Polly を活用した対話型ボットの構築方法を解説します。 需要予測 - Amazon Forecast で時系列データから将来を予測する Amazon Forecast を使った時系列データの需要予測を解説。AutoML による自動モデル選択、関連データの活用、予測精度の評価、小売・在庫管理への応用を紹介します。 ドキュメントテキスト抽出 - Amazon Textract で実現するインテリジェントな文書処理 Amazon Textract による文書からのテキスト、テーブル、フォームデータの自動抽出と、Amazon Comprehend との連携による自然言語処理パイプラインの構築を解説します。請求書処理や契約書分析の自動化パターンを紹介します。 エッジコンピュータビジョン - AWS Panorama でカメラ映像を現場で AI 分析する AWS Panorama を使ったエッジでのコンピュータビジョン分析を解説。Panorama Appliance、ML モデルのエッジデプロイ、リアルタイム映像分析のユースケースを紹介します。 Amazon Forecast で実現する需要予測 - 時系列データの取り込みと予測精度の向上 Forecast による時系列予測モデルの構築、関連データの活用、予測結果のエクスポートを解説します。 生成 AI プラットフォーム - Amazon Bedrock で構築するエンタープライズ AI 基盤 Amazon Bedrock を活用した生成 AI アプリケーションの構築方法を解説します。基盤モデルの選択、RAG パターンの実装、ガードレールによる安全性確保、SageMaker との連携など、エンタープライズレベルの AI 基盤設計を紹介します。 医療データレイク - Amazon HealthLake で FHIR 準拠の医療データを管理・分析する Amazon HealthLake を使った FHIR 準拠の医療データ管理を解説。構造化・非構造化医療データの統合、NLP による自動抽出、分析クエリ、HIPAA 準拠を紹介します。 Amazon HealthLake で構築する医療データ分析基盤 - FHIR データの格納と ML 分析 HealthLake による FHIR データの格納、自然言語処理による医療テキスト分析、分析クエリの実行を解説します。 インテリジェント検索 - Amazon Kendra で社内ナレッジを横断検索する Amazon Kendra を使ったエンタープライズ検索の構築を解説。自然言語クエリ、データソースコネクタ、RAG (検索拡張生成) との統合、OpenSearch との使い分けを紹介します。 Amazon Kendra で構築するエンタープライズ検索 - 自然言語クエリと FAQ 自動抽出 Kendra による社内ドキュメント検索、データソースコネクタの設定、検索精度のチューニングを解説します。 Amazon Lex で構築する会話型チャットボット - インテント設計と Lambda 統合 Lex によるチャットボットの構築、インテントとスロットの設計、Lambda フルフィルメントの実装を解説します。 Amazon Lookout for Metrics で自動化する異常検知 - ビジネスメトリクスの監視と根本原因分析 Lookout for Metrics による異常検知の設定、データソース接続、根本原因のドリルダウン分析を解説します。 産業向け ML 異常検知 - Amazon Lookout シリーズと Monitron で設備異常を自動検出する Amazon Lookout for Metrics・Vision・Equipment と Amazon Monitron を使った産業向け ML 異常検知を解説。メトリクス異常、外観検査、設備振動監視の各ユースケースを紹介します。 AWS Panorama でエッジコンピュータビジョンを実現 - 既存カメラへの ML モデルデプロイ Panorama による既存 IP カメラへのコンピュータビジョンモデルのデプロイ、エッジ推論の設計を解説します。 Amazon Personalize で構築するレコメンデーションエンジン - パーソナライズの実装パターン Amazon Personalize によるレコメンデーションエンジンの構築、レシピの選定、リアルタイムパーソナライゼーションの実装パターンを解説します。 Amazon Polly で実装するテキスト読み上げ - ニューラル音声と SSML による音声制御 Polly によるテキスト読み上げの実装、ニューラル音声エンジンの活用、SSML による発音・速度・抑揚の制御を解説します。 レコメンデーションとパーソナライゼーション - Amazon Personalize で実現する個別最適化体験 Amazon Personalize による機械学習ベースのレコメンデーションエンジンの構築と、SageMaker との連携による高度なパーソナライゼーション戦略を解説します。EC サイト、メディア配信、マーケティングでの実践的な活用パターンを紹介します。 Amazon Rekognition で構築する動画コンテンツモデレーション - UGC プラットフォームの安全性確保 Rekognition Video API による動画のコンテンツモデレーション、顔検索、セグメント検出の実装パターンを解説します。 Amazon SageMaker Canvas でノーコード ML - ビジュアルインターフェースで予測モデルを構築 SageMaker Canvas によるノーコードでの ML モデル構築、データ準備、予測の実行を解説します。 Amazon SageMaker で構築する ML プラットフォーム - モデルの構築からデプロイまで SageMaker によるノートブック環境、モデルトレーニング、推論エンドポイントのデプロイを解説します。 音声テキスト変換 - Amazon Transcribe で実現する高精度な自動文字起こし基盤 Amazon Transcribe による音声のテキスト変換 (STT) と、Amazon Polly との組み合わせによる双方向音声処理パイプラインの構築を解説します。リアルタイム文字起こし、話者識別、カスタム語彙による精度向上の実践手法を紹介します。 テキスト分析と自然言語処理 - Amazon Comprehend で実現するインテリジェントなテキスト解析基盤 Amazon Comprehend を活用したテキスト分析と自然言語処理の実践手法を解説します。感情分析、エンティティ抽出、トピックモデリングなどの機能と、SageMaker との連携によるカスタムモデル構築を紹介します。 テキスト読み上げ - Amazon Polly で実現する自然な音声合成とマルチ言語対応 Amazon Polly によるテキスト読み上げ (TTS) の実装と、Amazon Lex との連携による音声対話インターフェースの構築方法を解説します。ニューラル音声エンジンによる自然な音声合成と多言語対応の実践手法を紹介します。 Amazon Textract でドキュメントからデータを自動抽出 - OCR、テーブル解析、フォーム認識 Textract によるドキュメントのテキスト抽出、テーブル構造の解析、フォームのキー・バリュー抽出を解説します。 Amazon Textract で自動化するドキュメント処理 - OCR からフォーム・テーブル抽出まで Amazon Textract によるドキュメントの OCR、フォームのキー・バリュー抽出、テーブル構造の認識、請求書・領収書の自動処理を解説します。 Amazon Transcribe で実装する音声文字起こし - リアルタイム変換とカスタム語彙 Amazon Transcribe によるバッチ・リアルタイムの音声文字起こし、カスタム語彙による精度向上、Call Analytics の活用法を解説します。 Amazon Translate で実装する多言語対応 - リアルタイム翻訳とカスタム用語集 Translate によるリアルタイム翻訳、カスタム用語集による翻訳品質の向上、バッチ翻訳の活用を解説します。