Amazon Polly Especializado2016年〜

Servicio de texto a voz que convierte texto en audio con sonido natural

Unos 2 min de lecturaÚltima actualización: 2026-03-24

Qué hace

Amazon Polly es un servicio de texto a voz (TTS) que convierte texto en habla realista. Ofrece docenas de voces en más de 30 idiomas, con salida de sonido natural impulsada por un motor TTS neuronal. SSML (Speech Synthesis Markup Language) permite ajustar la velocidad del habla, el tono y las pausas.

Casos de uso

Mejora de la accesibilidad de sitios web y aplicaciones (soporte de lector de pantalla), generación de narración para e-learning, entrega de audio de artículos de noticias, generación de voz para sistemas IVR (respuesta de voz interactiva) y salida de audio para dispositivos IoT.

Analogía cotidiana

Es como un narrador profesional. Entréguele un guion (texto) y lo lee naturalmente en la voz e idioma que especifique. Incluso puede dar dirección (SSML) como 'más lento aquí' o 'enfatiza esta parte'.

¿Qué es Polly?

Amazon Polly es un servicio de IA que convierte texto en habla. Ofrece dos motores: Standard y Neural, con el motor Neural produciendo habla más natural y similar a la humana. Para japonés, están disponibles voces como Mizuki (femenina) y Takumi (masculina). El audio generado se puede descargar o transmitir en formato MP3, OGG o PCM.

SSML y personalización de voz

Las etiquetas SSML proporcionan control detallado sobre el habla. Use para insertar pausas, para cambiar velocidad o tono, para enfatizar palabras y para especificar pronunciación. También puede elegir estilos de habla como presentador de noticias o conversacional, según el caso de uso. Los textos largos se pueden procesar con tareas de síntesis asíncrona, con resultados guardados en S3. Para profundizar su comprensión de SSML y la personalización de voz, los libros de referencia en Amazon pueden ser útiles.

Primeros pasos

En la consola de Polly, vaya a la pestaña 'Text-to-Speech', ingrese su texto, seleccione una voz y haga clic en 'Listen'. Para usar la API, pase texto y un ID de voz a la API SynthesizeSpeech. La capa gratuita incluye 5 millones de caracteres (Standard) / 1 millón de caracteres (Neural) por mes durante los primeros 12 meses.

Aspectos a tener en cuenta

The Neural engine is higher quality but costs roughly 4x more per character than Standard - choose based on your use case
Redistributing generated audio is allowed within the terms of service, but presenting Polly-generated speech as a human voice is prohibited