Amazon Polly のアイコン

Amazon Polly

テキストを自然な音声に変換するクラウドベースの音声合成サービス

何ができるか

Amazon Polly は、テキストを人間のような自然な音声に変換する音声合成 (TTS: Text-to-Speech) サービスです。数十種類の言語と多数の音声タイプに対応しており、ニューラル音声エンジンによって従来の機械的な読み上げとは一線を画す滑らかな発話を実現します。SSML (Speech Synthesis Markup Language) を使えば、発音、速度、ピッチ、間の取り方などを細かく制御でき、用途に合わせた音声出力が可能です。

どのような場面で使うか

ニュース記事やブログのオーディオ版生成、E ラーニング教材のナレーション、コールセンターの自動応答 (IVR) システム、モバイルアプリやゲームのキャラクターボイス、視覚障害者向けのアクセシビリティ対応、IoT デバイスの音声フィードバックなど、テキストから音声を生成するあらゆる場面で活用されています。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。

身近な例え

プロのナレーターを雇うことに例えるとわかりやすいでしょう。ナレーターに原稿を渡せば自然な読み上げをしてくれますが、スケジュール調整や録り直しにコストがかかります。Polly はいつでも即座に原稿を読み上げてくれるナレーターのようなもので、何度でも無制限に利用でき、原稿を変更すればすぐに新しい音声が生成されます。

Polly とは

Amazon Polly は、2016 年にリリースされた AWS のフルマネージド音声合成サービスです。入力されたテキストをリアルタイムで音声ストリームに変換し、MP3 や OGG Vorbis、PCM などの形式で出力できます。ニューラル TTS エンジンの採用により、抑揚やイントネーションが自然で、長文でも聞き疲れしにくい音声を生成します。日本語を含む 30 以上の言語に対応しており、グローバルなアプリケーションにも適しています。

主な特徴と音声エンジン

Polly には標準エンジンとニューラルエンジンの 2 種類があります。ニューラルエンジンはディープラーニングを活用し、より人間に近い自然な音声を生成します。また、SSML タグを使うことで、特定の単語の発音を変更したり、息継ぎの位置を指定したり、ウィスパー (ささやき) 効果を加えたりと、細やかな音声制御が可能です。Speech Marks 機能を使えば、音声と同期したリップシンクや字幕表示も実現できます。生成した音声は無制限に再利用でき、追加のライセンス料は発生しません。

料金体系と無料枠

Polly の料金は処理した文字数に基づく従量課金制です。標準エンジンとニューラルエンジンで単価が異なり、ニューラルエンジンの方が高品質な分やや高めに設定されています。AWS 無料利用枠として、最初の 12 か月間は標準音声で月間 500 万文字、ニューラル音声で月間 100 万文字まで無料で利用できます。大量のテキストを処理する場合でも、事前にコストを見積もりやすい透明な料金体系になっています。

Azure・オンプレミスとの比較

Azure の対応サービス Azure Speech Service (TTS)
オンプレミスでの対応手段 Festival TTS、eSpeak

AWS の優位点

  • ニューラル TTS エンジンにより、従来の機械的な読み上げとは異なる自然で滑らかな音声を生成でき、リスナーの聞き疲れを軽減できる
  • 30 以上の言語と多数の音声タイプに対応しており、グローバル展開するアプリケーションでも単一の API で多言語音声を統一的に管理できる
  • 生成した音声ファイルの再利用にライセンス料が不要で、一度生成した音声をアプリ内やコンテンツ配信で無制限に活用できる

注意点

  • ニューラルエンジンは標準エンジンより高品質だが、対応言語・音声が限定されるため、利用前に対応状況を確認すること
  • SSML を活用すると発音や間の制御が可能になるが、タグの記述ミスがあるとエラーになるため構文チェックを行うこと

さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。