Amazon Transcribe
音声をテキストに自動変換する高精度な音声認識サービス
何ができるか
Amazon Transcribe は、音声データをテキストに自動変換する音声認識 (STT: Speech-to-Text) サービスです。リアルタイムのストリーミング音声と、録音済みの音声ファイルの両方に対応しています。日本語を含む 100 以上の言語をサポートし、話者識別、カスタム語彙、自動句読点挿入、不適切な表現のフィルタリングなどの高度な機能を備えています。医療分野に特化した Amazon Transcribe Medical も提供されており、医療用語の認識精度が最適化されています。
どのような場面で使うか
コールセンターの通話録音の文字起こし、会議の議事録自動作成、動画コンテンツの字幕生成、ポッドキャストのトランスクリプト作成、医療現場での診察記録の自動入力、法廷での証言記録、カスタマーサポートの品質分析、メディアコンテンツの検索可能なアーカイブ作成など、音声をテキスト化するあらゆる場面で活用されています。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
身近な例え
速記者に例えるとわかりやすいでしょう。会議や裁判で速記者が発言をリアルタイムで記録してくれますが、長時間の記録には複数の速記者が必要で、コストも高くなります。Transcribe は疲れを知らない速記者のようなもので、何時間もの音声を正確にテキスト化し、誰が話したかまで識別してくれます。
Transcribe とは
Amazon Transcribe は、2017 年に発表された AWS の自動音声認識 (ASR) サービスです。ディープラーニングモデルを活用し、さまざまな音声環境 (電話回線、会議室、屋外など) での音声を高精度にテキスト変換します。バッチ処理では S3 に格納された音声ファイルを非同期で処理し、ストリーミング処理ではマイクやライブ音声をリアルタイムでテキスト化します。出力はタイムスタンプ付きの JSON 形式で、各単語の開始時刻と終了時刻が記録されるため、字幕生成やハイライト機能の実装に活用できます。
話者識別とカスタム語彙
Transcribe の話者識別 (Speaker Diarization) 機能は、複数の話者が参加する会議や対話の音声から、誰がいつ発言したかを自動的に識別します。最大 10 人の話者を区別でき、議事録の作成やコールセンターのオペレーターと顧客の発言分離に役立ちます。カスタム語彙機能では、業界固有の専門用語、製品名、人名などを事前に登録することで認識精度を向上させられます。カスタム言語モデル機能を使えば、特定のドメインに特化したより高精度な認識モデルを構築することも可能です。
コンテンツフィルタリングと分析連携
Transcribe には、不適切な表現を自動的にマスキングするコンテンツフィルタリング機能が搭載されています。個人情報 (PII) の自動検出・マスキング機能により、氏名、電話番号、クレジットカード番号などの機密情報をテキスト出力から自動的に除去できます。また、Transcribe の出力を Amazon Comprehend に渡してセンチメント分析を行ったり、Amazon Translate で多言語翻訳したりと、他の AWS サービスと組み合わせた高度な音声分析パイプラインを構築できます。Contact Lens for Amazon Connect との統合により、コールセンターの通話品質分析も自動化できます。
Azure・オンプレミスとの比較
AWS の優位点
- 100 以上の言語に対応し、話者識別機能により最大 10 人の発言者を自動的に区別でき、多言語・多人数の会議録作成を単一の API で実現できる
- PII の自動検出・マスキング機能が組み込まれており、追加の後処理なしで個人情報を含む音声データを安全にテキスト化できる
- カスタム語彙とカスタム言語モデルにより、業界固有の専門用語や製品名の認識精度を大幅に向上でき、医療・法律・金融など専門分野での実用性が高い
注意点
- 音声品質が低い場合 (ノイズが多い、音量が小さいなど) は認識精度が低下するため、入力音声の品質改善やカスタム語彙の活用を検討すること
- ストリーミング処理はリアルタイム性が求められる場面に適しているが、バッチ処理と比較して若干精度が低くなる場合がある
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。