Amazon Polly 专业2016年〜

将文本转换为自然语音的文本转语音服务

阅读约需 1 分钟最后更新： 2026-03-24

它能做什么

Amazon Polly 是一项使用深度学习技术将文本转换为自然语音的服务。支持多种语言和语音，提供标准语音和更自然的神经网络语音（Neural）。通过 SSML 标记可以控制语速、音调、停顿等。

使用场景

用于应用和网站的语音朗读功能、电子学习内容的旁白、IVR（交互式语音应答）系统、无障碍辅助功能、IoT 设备的语音输出。

日常类比

可以比作专业的朗读演员。将交给他的文稿（文本）用自然的声音朗读出来。可以指定语速和语调，还能用多种语言朗读。

什么是 Polly

Amazon Polly 是一项文本转语音（TTS）服务。通过 API 发送文本即可获取音频数据。Neural 语音使用深度学习生成接近人类的自然语音。支持实时流式传输和 MP3/OGG 等格式的音频文件输出。

语音与 SSML

Polly 提供多种语言的男女语音。通过 SSML（Speech Synthesis Markup Language）可以精细控制发音。例如可以指定停顿、强调、语速变化、数字和日期的读法等。Neural 语音在自然度方面远超标准语音。如需深入了解语音与 SSML 的实践知识，可参考相关书籍（Amazon）。