Amazon Polly
テキストを自然な音声に変換するクラウドサービスで、ニューラル音声エンジンと SSML による細かな発話制御を提供する
概要
Amazon Polly は、テキストをリアルタイムで自然な音声に変換する Text-to-Speech (TTS) サービスです。ニューラル TTS エンジンにより人間に近い自然な発話を生成し、日本語を含む 30 以上の言語と数十種類の音声をサポートします。SSML (Speech Synthesis Markup Language) によるポーズ、強調、発音の細かな制御に加え、ニュースキャスタースタイルや会話調スタイルなど用途に応じた音声スタイルの選択が可能です。
ニューラル TTS エンジンの仕組みと音声品質の進化
Polly は標準エンジンとニューラルエンジンの 2 種類を提供しています。標準エンジンは連結合成方式で、録音された音声断片をつなぎ合わせて発話を生成します。一方、ニューラルエンジンは深層学習モデルが音声波形を直接生成するため、イントネーションや抑揚がより自然で、機械的な不自然さが大幅に軽減されています。特に長文の読み上げでは両者の品質差が顕著に現れます。ニューラルエンジンは Generative エンジンへとさらに進化しており、最新の長文読み上げ (Long-Form) エンジンでは、段落をまたいだ文脈を考慮した自然なプロソディ (韻律) を実現しています。日本語のニューラル音声は Kazuha と Tomoko が利用可能で、ビジネス用途に十分な品質です。Azure Speech Service も同様のニューラル TTS を提供していますが、Polly は API のシンプルさと AWS エコシステムとの統合の容易さが実務上の利点です。音声データは MP3、OGG、PCM 形式で出力でき、用途に応じたフォーマット選択が可能です。
SSML と音声スタイルで実現する表現力豊かな発話制御
テキストをそのまま音声化するだけでは、固有名詞の読み間違いや不自然なポーズが発生することがあります。SSML を使うと、 タグでポーズの長さを指定、 タグで強調、 タグで発音記号による正確な読みの指定、 タグで速度・ピッチ・音量の調整が可能です。たとえば技術用語の読み上げでは、phoneme タグで IPA (国際音声記号) を指定することで誤読を防げます。ニュースキャスタースタイル (newscaster) はニュース原稿の読み上げに最適化されており、報道番組のような落ち着いたトーンで発話します。会話スタイル (conversational) はチャットボットや対話型アプリケーション向けで、より親しみやすい口調になります。音声合成の関連書籍 (Amazon) では、SSML の実践的な活用パターンが体系的に解説されています。レキシコン機能を使えば、特定の単語やフレーズの発音をアカウント単位で一括定義でき、SSML を毎回記述する手間を省けます。
リアルタイム配信とバッチ処理のアーキテクチャ設計
Polly の SynthesizeSpeech API はリアルタイムで音声ストリームを返すため、Web アプリケーションやモバイルアプリでの即時再生に適しています。テキスト量が多い場合は StartSpeechSynthesisTask API で非同期バッチ処理を実行し、生成された音声ファイルを S3 に出力する構成が効率的です。バッチ処理では最大 100,000 文字のテキストを 1 タスクで処理でき、書籍の全文読み上げやポッドキャスト生成にも対応します。実務でのアーキテクチャ設計では、コンテンツ管理システムから記事が公開されたタイミングで EventBridge がイベントを検知し、Lambda 経由で Polly のバッチタスクを起動、生成された音声を CloudFront で配信するパイプラインが一般的です。料金はリクエストした文字数に基づく従量課金で、ニューラルエンジンは標準エンジンの約 4 倍の単価ですが、品質差を考慮するとニューラルエンジンの採用が推奨されます。SpeechMark 機能を使うと、音声の各単語に対応するタイムスタンプが取得でき、字幕の自動同期やカラオケ風のハイライト表示を実装できます。