使用 Amazon Polly 实现文本朗读 - 神经网络语音与 SSML 语音控制
通过神经网络 TTS 引擎生成自然语音,使用 SSML 标签控制语速、音调和停顿。解析通过实时流和 S3 异步合成构建多样化语音内容的方法。
Polly 概述
Amazon Polly 是将文本转换为自然语音的文本朗读 (TTS) 服务。神经网络 TTS 引擎使用深度学习模型,与传统标准 TTS 引擎相比生成更加自然的语音。支持包括中文在内的 30 多种语言、60 多种声音,可选择男性、女性和儿童声音。
SSML 与语音控制
通过 SSML (Speech Synthesis Markup Language) 标签可精细控制文本的朗读方式。 标签调整语速 (rate)、音调 (pitch) 和音量 (volume), 标签在任意位置插入停顿。 标签可用 IPA(国际音标)指定特定词语的发音,防止专有名词和术语的读音错误。 标签指定日期、电话号码、金额等的读法。
合成方式与集成
Polly 提供两种合成方式。SynthesizeSpeech API 实时将文本转换为语音并返回音频流,可直接播放或保存为文件,适用于 3,000 字符以下的文本。StartSpeechSynthesisTask API 是异步合成,将长文本以 MP3 或 OGG 格式输出到 S3 存储桶,适用于有声书和播客等长内容。SpeechMark 功能输出每个词语的时间戳信息,可实现字幕同步和口型同步。与 Connect 集成可在电话系统中使用动态语音,与 Lex 集成可为聊天机器人添加语音界面。 关于语音合成的深入学习,Amazon 的相关书籍也可供参考。
Polly 的定价
Polly 按处理字符数按量计费。神经网络引擎每 100 万字符约 16.00 美元,标准引擎每 100 万字符约 4.00 美元。Generative 引擎每 100 万字符约 30.00 美元。Long-Form 引擎每 100 万字符约 100.00 美元,价格较高但专为书籍朗读等高品质长文语音设计。免费套餐在前 12 个月提供每月 500 万字符(标准)和 100 万字符(神经网络)。
总结
Amazon Polly 是通过神经网络 TTS 引擎生成自然语音的服务。通过 SSML 精细控制语音、实时流和异步合成两种合成方式、SpeechMark 字幕同步等功能,可构建多样化的语音内容。与 Connect 和 Lex 集成还可用于构建语音对话系统。