Amazon Rekognition で構築する動画コンテンツモデレーション - UGC プラットフォームの安全性確保
UGC プラットフォームの動画を自動モデレーションし、顔検索とセグメント検出でメディアワークフローを自動化する。S3・Lambda のイベント駆動パイプラインを紹介します。
Rekognition Video API の概要
Rekognition の Video API は S3 に保存された動画ファイルを非同期で分析します。StartContentModeration、StartLabelDetection、StartFaceSearch などの Start API で分析を開始し、SNS トピックに完了通知が送信されます。完了後に対応する Get API で結果を取得します。結果にはフレームごとのタイムスタンプが含まれるため、動画のどの時点で何が検出されたかを正確に把握できます。対応する動画形式は H.264 エンコードの MOV と MP4 で、最大ファイルサイズは 10 GB、最大動画長は 6 時間です。
コンテンツモデレーションの実装
UGC (ユーザー生成コンテンツ) プラットフォームでは、ユーザーがアップロードした動画に不適切なコンテンツが含まれていないかを自動チェックする必要があります。S3 への動画アップロードをトリガーに Lambda で StartContentModeration を呼び出し、SNS 通知で完了を検知して結果を評価するパイプラインを構築します。検出結果には不適切コンテンツのカテゴリ (Explicit Nudity、Violence、Visually Disturbing など) と信頼度スコアが含まれます。信頼度の閾値を設定し、閾値以上の検出があった動画を自動的に非公開にするか、人間のレビューキューに送るワークフローを設計します。
顔検索とセグメント検出
顔コレクションに事前に顔画像を登録しておくと、 StartFaceSearch で動画内に登録済みの顔が出現するシーンを検出できます。メディア企業での出演者の出演シーン検索、セキュリティ用途での特定人物の追跡に活用できます。セグメント検出 (StartSegmentDetection) は動画の構造を分析する機能で、ショット境界 (カメラカットの切り替わり)、黒フレーム、カラーバー、スレート、スタジオロゴ、エンドクレジットを自動識別します。放送局やストリーミングサービスでの動画編集の自動化、広告挿入ポイントの検出に有効です。 コンテンツモデレーションのモデル設計を理解するうえで関連書籍 (Amazon)が参考になります。
Rekognition Video の料金
Rekognition Video API の料金は処理した動画の分数に基づきます。コンテンツモデレーションは 1 分あたり約 0.12 ドル、ラベル検出は約 0.10 ドル、顔検索は約 0.10 ドルです。10 分の動画のコンテンツモデレーションで約 1.20 ドルです。UGC プラットフォームで大量の動画を処理する場合、信頼度の閾値を適切に設定して不要な分析を削減し、短い動画 (30 秒以下) はサムネイル画像の Image API で代替するなどの最適化が有効です。
まとめ
Rekognition Video API は動画コンテンツの自動分析をサーバーレスで実現するサービスです。コンテンツモデレーションで UGC プラットフォームの安全性を確保し、顔検索とセグメント検出でメディアワークフローを自動化できます。S3 と Lambda を組み合わせたイベント駆動アーキテクチャで、動画アップロードから分析完了までを完全に自動化できます。