Amazon Rekognition で構築する動画コンテンツモデレーション - UGC プラットフォームの安全性確保

UGC プラットフォームの動画を自動モデレーションし、顔検索とセグメント検出でメディアワークフローを自動化する。S3・Lambda のイベント駆動パイプラインを紹介します。

約 3 分で読めます最終更新: 2025-12-07

Rekognition Video API の概要

Rekognition の Video API は S3 に保存された動画ファイルを非同期で分析します。StartContentModeration、StartLabelDetection、StartFaceSearch などの Start API で分析を開始し、SNS トピックに完了通知が送信されます。完了後に対応する Get API で結果を取得します。結果にはフレームごとのタイムスタンプが含まれるため、動画のどの時点で何が検出されたかを正確に把握できます。対応する動画形式は H.264 エンコードの MOV と MP4 で、最大ファイルサイズは 10 GB、最大動画長は 6 時間です。

コンテンツモデレーションの実装

UGC (ユーザー生成コンテンツ) プラットフォームでは、ユーザーがアップロードした動画に不適切なコンテンツが含まれていないかを自動チェックする必要があります。S3 への動画アップロードをトリガーに Lambda で StartContentModeration を呼び出し、SNS 通知で完了を検知して結果を評価するパイプラインを構築します。検出結果には不適切コンテンツのカテゴリ (Explicit Nudity、Violence、Visually Disturbing など) と信頼度スコアが含まれます。信頼度の閾値を設定し、閾値以上の検出があった動画を自動的に非公開にするか、人間のレビューキューに送るワークフローを設計します。

顔検索とセグメント検出

顔コレクションに事前に顔画像を登録しておくと、 StartFaceSearch で動画内に登録済みの顔が出現するシーンを検出できます。メディア企業での出演者の出演シーン検索、セキュリティ用途での特定人物の追跡に活用できます。セグメント検出 (StartSegmentDetection) は動画の構造を分析する機能で、ショット境界 (カメラカットの切り替わり)、黒フレーム、カラーバー、スレート、スタジオロゴ、エンドクレジットを自動識別します。放送局やストリーミングサービスでの動画編集の自動化、広告挿入ポイントの検出に有効です。コンテンツモデレーションのモデル設計を理解するうえで関連書籍 (Amazon)が参考になります。

Rekognition Video の料金

Rekognition Video API の料金は処理した動画の分数に基づきます。コンテンツモデレーションは 1 分あたり約 0.12 ドル、ラベル検出は約 0.10 ドル、顔検索は約 0.10 ドルです。10 分の動画のコンテンツモデレーションで約 1.20 ドルです。UGC プラットフォームで大量の動画を処理する場合、信頼度の閾値を適切に設定して不要な分析を削減し、短い動画 (30 秒以下) はサムネイル画像の Image API で代替するなどの最適化が有効です。

ライブ配信のリアルタイム分析

保存済みファイルの非同期分析に加え、ライブ配信のようなストリーミング映像をリアルタイムに分析する経路もあります。Kinesis Video Streams に取り込んだ映像を Rekognition と連携させ、配信中の映像から特定の検出を行う構成です。ライブ配信プラットフォームで、不適切な映像を配信中に検知して即座に対処したい、といった要件に応えられます。録画後にまとめて分析するバッチ処理と、配信中に判定するリアルタイム処理は性質が異なるため、要件に応じて使い分けます。即時性が必要かどうかが選択の分かれ目です。

モデレーション設計のベストプラクティス

コンテンツモデレーションは、機械任せにせず人間のレビューと組み合わせるのが基本です。検出のカテゴリは大分類と詳細分類の階層になっているため、用途に応じてどの粒度で判定するかを決めます。信頼度スコアにしきい値を設け、明確に問題があるものは自動でブロック、判断が微妙なものは人間のレビューキューへ回す、という二段構えが実用的です。Augmented AI (A2I) を使うと、この人間によるレビューの流れを仕組み化できます。判定の根拠と結果を記録し、後から検証できるようにしておくことも重要です。

プライバシーと責任ある利用

顔の検出や検索を扱う機能は、プライバシーへの配慮が欠かせません。撮影・利用にあたっては、対象者の同意や、適用される法令・ガイドラインの確認が前提になります。収集した顔データやコレクションは、保持期間と利用目的を明確にし、不要になったら確実に削除します。検出結果には誤りが含まれうるため、重要な判断を機械の出力だけに委ねず、人間の確認を挟む設計にします。地域によって規制が異なる点にも注意が必要です。技術の利便性とともに、利用者の権利を守る運用設計が求められます。

画像 API との使い分けとコスト

動画分析は処理した分数に応じて課金されるため、すべてを動画として処理する必要があるかを見極めます。短いクリップや、代表フレームの確認で十分な場合は、動画からサムネイル画像を切り出して画像 API で判定するほうが安く済むことがあります。アップロード時にまず軽量なチェックを行い、疑わしいものだけ詳細な動画分析に回す、という段階的な設計も有効です。分析するカテゴリを必要なものに絞り、処理対象の動画長を抑えることで、大量のコンテンツを扱うプラットフォームでもコストを管理できます。

まとめ

Rekognition Video API は動画コンテンツの自動分析をサーバーレスで実現するサービスです。コンテンツモデレーションで UGC プラットフォームの安全性を確保し、顔検索とセグメント検出でメディアワークフローを自動化できます。S3 と Lambda を組み合わせたイベント駆動アーキテクチャで、動画アップロードから分析完了までを完全に自動化できます。

AWS Batch で実行する GPU ベースの機械学習トレーニング - コスト効率の高い大規模学習既存の Docker コンテナで GPU トレーニングを実行し、スポットインスタンスとチェックポイントでコストを最大 90% 削減する。SageMaker との使い分けも紹介します。Amazon Bedrock における Claude の活用 - モデル選定からプロンプト設計、コスト最適化までAmazon Bedrock で利用できる Anthropic Claude モデルの特徴比較、ユースケース別のモデル選定指針、プロンプト設計のベストプラクティス、コスト最適化を解説します。Amazon Bedrock Knowledge Bases で構築する RAG アプリケーション - 検索拡張生成の実装S3 上のドキュメントを自動インデックス化し、RetrieveAndGenerate API で検索と生成を統合する。チャンキング戦略の選定と Guardrails による安全性確保を紹介します。Amazon Braket で始める量子コンピューティング - 量子回路の設計とシミュレーションローカルシミュレーターで無料プロトタイピングし、IonQ・Rigetti の実機で量子回路を実行する。ハイブリッドジョブで VQE や QAOA を実装する手法を紹介します。AWS Clean Rooms ML でプライバシー保護型 ML - データを共有せずにモデルを構築Clean Rooms ML によるルックアライクモデルの構築、差分プライバシーの適用、広告ターゲティングへの活用を解説します。Amazon Comprehend で実装する自然言語処理 - 感情分析とエンティティ抽出の活用Comprehend による感情分析、エンティティ抽出、カスタム分類モデルの構築を解説します。対話型ボット構築 - Amazon Lex と Polly で実現する自然な会話インターフェースAmazon Lex と Amazon Polly を活用した対話型ボットの構築方法を解説します。ドキュメントテキスト抽出 - Amazon Textract で実現するインテリジェントな文書処理Amazon Textract による文書からのテキスト、テーブル、フォームデータの自動抽出と、Amazon Comprehend との連携による自然言語処理パイプラインの構築を解説します。請求書処理や契約書分析の自動化パターンを紹介します。

Rekognition Video API の概要

コンテンツモデレーションの実装

顔検索とセグメント検出

Rekognition Video の料金

ライブ配信のリアルタイム分析

モデレーション設計のベストプラクティス

プライバシーと責任ある利用

画像 API との使い分けとコスト

まとめ

関連するサービス

関連する記事

同じテーマの記事

内容が近い記事・サービス