Amazon Polly
テキストを自然な音声に変換するテキスト読み上げサービス
何ができるか
Amazon Polly は、テキストをリアルな音声に変換するテキスト読み上げ (TTS) サービスです。30 以上の言語で数十種類の音声を提供し、ニューラル TTS エンジンによる自然な発話を実現します。SSML (Speech Synthesis Markup Language) で発話速度、ピッチ、間の調整が可能です。
どのような場面で使うか
Web サイトやアプリのアクセシビリティ向上 (視覚障害者向け読み上げ)、e ラーニングのナレーション生成、ニュース記事の音声配信、IVR (自動音声応答) システムの音声生成、IoT デバイスの音声出力に利用されます。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
身近な例え
プロのナレーターに例えられます。原稿 (テキスト) を渡すと、指定した声質と言語で自然に読み上げてくれます。読み方の指示 (SSML) で「ここはゆっくり」「ここは強調」といった細かい調整も可能です。
Polly とは
Amazon Polly は、テキストを音声に変換する AI サービスです。標準エンジンとニューラルエンジンの 2 種類があり、ニューラルエンジンはより自然で人間に近い発話を生成します。日本語では Mizuki (女性)、Takumi (男性) などの音声が利用可能です。生成した音声は MP3、OGG、PCM 形式でダウンロードまたはストリーミング再生できます。
SSML と音声のカスタマイズ
SSML タグを使うと、発話を細かく制御できます。<break> で間を入れる、<prosody> で速度やピッチを変える、<emphasis> で強調する、<phoneme> で読み方を指定するなどが可能です。ニュースキャスタースタイルや会話スタイルなど、用途に応じた発話スタイルも選択できます。長文テキストは非同期合成タスクで処理し、結果を S3 に保存できます。
はじめかた
Polly コンソールの「テキスト読み上げ」タブでテキストを入力し、音声を選択して「音声を聴く」をクリックするだけで試せます。API 経由で利用する場合は SynthesizeSpeech API にテキストと音声 ID を渡します。無料利用枠として、最初の 12 か月間は月 500 万文字 (標準) / 100 万文字 (ニューラル) が無料です。
注意点
- ニューラルエンジンは標準エンジンより高品質だが、文字単価が約 4 倍。用途に応じて使い分けを推奨
- 生成した音声の再配布は利用規約の範囲内で可能。ただし Polly で生成した音声を人間の声として偽ることは禁止
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。