使用 Amazon Polly 实现文本朗读 - 神经网络语音与 SSML 语音控制

通过神经网络 TTS 引擎生成自然语音，使用 SSML 标签控制语速、音调和停顿。解析通过实时流和 S3 异步合成构建多样化语音内容的方法。

約 1 分で読めます最終更新: 2025-11-23

Polly 概述

Amazon Polly 是将文本转换为自然语音的文本朗读 (TTS) 服务。神经网络 TTS 引擎使用深度学习模型，与传统标准 TTS 引擎相比生成更加自然的语音。支持包括中文在内的 30 多种语言、60 多种声音，可选择男性、女性和儿童声音。

SSML 与语音控制

通过 SSML (Speech Synthesis Markup Language) 标签可精细控制文本的朗读方式。标签调整语速 (rate)、音调 (pitch) 和音量 (volume)，标签在任意位置插入停顿。标签可用 IPA（国际音标）指定特定词语的发音，防止专有名词和术语的读音错误。标签指定日期、电话号码、金额等的读法。

合成方式与集成

Polly 提供两种合成方式。SynthesizeSpeech API 实时将文本转换为语音并返回音频流，可直接播放或保存为文件，适用于 3,000 字符以下的文本。StartSpeechSynthesisTask API 是异步合成，将长文本以 MP3 或 OGG 格式输出到 S3 存储桶，适用于有声书和播客等长内容。SpeechMark 功能输出每个词语的时间戳信息，可实现字幕同步和口型同步。与 Connect 集成可在电话系统中使用动态语音，与 Lex 集成可为聊天机器人添加语音界面。关于语音合成的深入学习，Amazon 的相关书籍也可供参考。

Polly 的定价

Polly 按处理字符数按量计费。神经网络引擎每 100 万字符约 16.00 美元，标准引擎每 100 万字符约 4.00 美元。Generative 引擎每 100 万字符约 30.00 美元。Long-Form 引擎每 100 万字符约 100.00 美元，价格较高但专为书籍朗读等高品质长文语音设计。免费套餐在前 12 个月提供每月 500 万字符（标准）和 100 万字符（神经网络）。

总结

Amazon Polly 是通过神经网络 TTS 引擎生成自然语音的服务。通过 SSML 精细控制语音、实时流和异步合成两种合成方式、SpeechMark 字幕同步等功能，可构建多样化的语音内容。与 Connect 和 Lex 集成还可用于构建语音对话系统。

Polly 概述

SSML 与语音控制

合成方式与集成

Polly 的定价

总结

相关服务

相关文章

本主题的更多内容

相似的文章与服务