Amazon Polly のアイコン

Amazon Polly 专业2016年〜

将文本转换为自然语音的文本转语音服务

它能做什么

Amazon Polly 是一项使用深度学习技术将文本转换为自然语音的服务。支持多种语言和语音,提供标准语音和更自然的神经网络语音(Neural)。通过 SSML 标记可以控制语速、音调、停顿等。

使用场景

用于应用和网站的语音朗读功能、电子学习内容的旁白、IVR(交互式语音应答)系统、无障碍辅助功能、IoT 设备的语音输出。

日常类比

可以比作专业的朗读演员。将交给他的文稿(文本)用自然的声音朗读出来。可以指定语速和语调,还能用多种语言朗读。

什么是 Polly

Amazon Polly 是一项文本转语音(TTS)服务。通过 API 发送文本即可获取音频数据。Neural 语音使用深度学习生成接近人类的自然语音。支持实时流式传输和 MP3/OGG 等格式的音频文件输出。

语音与 SSML

Polly 提供多种语言的男女语音。通过 SSML(Speech Synthesis Markup Language)可以精细控制发音。例如可以指定停顿、强调、语速变化、数字和日期的读法等。Neural 语音在自然度方面远超标准语音。 如需深入了解语音与 SSML 的实践知识,可参考相关书籍(Amazon)

开始使用

在 Polly 控制台输入文本,选择语言和语音即可试听。通过 API 集成到应用中时,使用 SynthesizeSpeech API 发送文本并接收音频。生成的音频可以保存到 S3。

注意事项

  • Neural 语音的自然度远超标准语音,但支持的语言和语音种类较少
  • 生成的音频可以缓存和重复使用,无需每次都调用 API
共有するXB!