Amazon Transcribe で実装する音声文字起こし - リアルタイム変換とカスタム語彙
バッチとリアルタイムの音声文字起こしを提供し、カスタム語彙で業界固有の精度を向上させる。Call Analytics によるコンタクトセンターの品質管理も紹介します。
Transcribe の API 体系
Transcribe は音声をテキストに変換する自動音声認識 (ASR) サービスです。バッチ API は S3 に保存された音声ファイル (MP3、MP4、WAV、FLAC など) を非同期で処理し、JSON 形式の文字起こし結果を返します。ストリーミング API は WebSocket または HTTP/2 経由でリアルタイムの音声文字起こしを提供し、数百ミリ秒の遅延でテキストを生成します。ライブ配信の字幕、会議のリアルタイム議事録、コンタクトセンターのリアルタイムアシストに活用できます。料金は処理した音声の秒数に基づく従量課金で、月間 60 分までは無料利用枠に含まれます。
精度向上のためのカスタマイズ
カスタム語彙は、業界固有の専門用語、製品名、人名など、標準モデルでは認識精度が低い単語を登録する機能です。テーブル形式で単語、発音 (IPA)、表示形式を定義し、文字起こしジョブに適用します。例えば、医療分野では薬品名や疾患名、IT 分野ではサービス名やプロトコル名を登録することで精度が大幅に向上します。カスタム言語モデルはさらに高度なカスタマイズで、ドメイン固有のテキストデータ (議事録、マニュアル、FAQ) をトレーニングデータとして投入し、そのドメインに特化した言語モデルを構築します。
Call Analytics とコンタクトセンター活用
Transcribe Call Analytics はコンタクトセンターの通話分析に特化した機能です。通話の文字起こしに加え、話者ごとの感情分析 (ポジティブ、ネガティブ、ニュートラル)、通話中断の検出、沈黙時間の計測を自動実行します。カテゴリ機能でキーワードやフレーズに基づくルールを定義し、通話を自動分類できます。例えば「解約」「クレーム」というキーワードを含む通話を自動的にフラグ付けし、スーパーバイザーのレビュー対象にするワークフローを構築できます。自動コンテンツリダクションは、文字起こし結果からクレジットカード番号、社会保障番号などの PII を自動的にマスキングします。 文字起こしについて体系的に学びたい方は、関連書籍 (Amazon)も参考になります。
Transcribe の料金
Transcribe の料金は処理した音声の秒数で課金されます。バッチ文字起こしは 1 秒あたり約 0.00024 ドル (1 分あたり約 0.0144 ドル) で、月間 60 分までは無料利用枠に含まれます。ストリーミング文字起こしは 1 秒あたり約 0.00024 ドルです。Call Analytics は通常の文字起こし料金に加え、分析料金が 1 分あたり約 0.02 ドル追加されます。カスタム語彙の利用に追加料金は発生しませんが、カスタム言語モデルのトレーニングは別途課金されます。大量の音声ファイルを処理する場合、バッチ API で非同期処理し、S3 と Lambda のイベント駆動パイプラインでコストを最適化します。
まとめ
Transcribe はバッチとリアルタイムの両方の音声文字起こしを提供する ASR サービスです。カスタム語彙と言語モデルでドメイン固有の精度を向上させ、Call Analytics でコンタクトセンターの品質管理を自動化できます。S3 と Lambda を組み合わせたイベント駆動アーキテクチャで、音声ファイルのアップロードをトリガーにした自動文字起こしパイプラインを構築できます。