Amazon Polly

Servicio en la nube que convierte texto en habla con sonido natural, ofreciendo un motor de voz neuronal y control detallado del habla mediante SSML

Descripción general

Amazon Polly es un servicio de Text-to-Speech (TTS) que convierte texto en habla con sonido natural en tiempo real. Su motor TTS neuronal genera habla similar a la humana, soportando más de 30 idiomas con docenas de opciones de voz. Además del control detallado de pausas, énfasis y pronunciación mediante SSML (Speech Synthesis Markup Language), ofrece selección de estilos de habla como locutor de noticias y conversacional para diferentes casos de uso.

Mecánica del motor TTS neuronal y evolución de la calidad de voz

Polly ofrece dos tipos de motor: estándar y neuronal. El motor estándar usa síntesis concatenativa, uniendo fragmentos de habla grabada para generar enunciados. El motor neuronal utiliza modelos de aprendizaje profundo para generar directamente formas de onda de habla, resultando en entonación e inflexión más naturales con artefactos mecánicos significativamente reducidos. La diferencia de calidad es particularmente pronunciada en lectura de textos largos. El motor neuronal ha evolucionado al motor Generativo, con el último motor Long-Form logrando prosodia natural que considera el contexto entre párrafos. Azure Speech Service ofrece TTS neuronal similar, pero las ventajas prácticas de Polly son la simplicidad de la API y la facilidad de integración con el ecosistema AWS. Los datos de audio pueden generarse en formatos MP3, OGG y PCM.

Control expresivo del habla con SSML y estilos de voz

Simplemente convertir texto a habla puede resultar en pronunciación incorrecta de nombres propios o pausas no naturales. SSML permite especificar duración de pausas con etiquetas break, énfasis con etiquetas emphasis, pronunciación exacta con etiquetas phoneme usando IPA (International Phonetic Alphabet), y ajuste de velocidad, tono y volumen con etiquetas prosody. Para terminología técnica, las etiquetas phoneme con IPA previenen lecturas incorrectas. El estilo de locutor de noticias está optimizado para lectura de guiones de noticias, entregando habla en un tono calmado tipo transmisión. El estilo conversacional está diseñado para chatbots y aplicaciones interactivas. Libros de síntesis de voz en Amazon cubren sistemáticamente patrones prácticos de uso de SSML.

Diseño de arquitectura para entrega en tiempo real y procesamiento por lotes

La API SynthesizeSpeech de Polly devuelve flujos de audio en tiempo real, siendo adecuada para reproducción inmediata en aplicaciones web y móviles. Para grandes volúmenes de texto, la API StartSpeechSynthesisTask ejecuta procesamiento por lotes asíncrono, generando archivos de audio en S3. El procesamiento por lotes maneja hasta 100,000 caracteres por tarea, soportando narración de libros completos y generación de podcasts. Una arquitectura común en la práctica involucra EventBridge detectando publicación de artículos desde un sistema de gestión de contenido, activando tareas por lotes de Polly vía Lambda, y entregando el audio generado a través de CloudFront. Los precios se basan en el conteo de caracteres solicitados, con el motor neuronal aproximadamente 4 veces el precio del estándar. La función SpeechMark proporciona marcas de tiempo para cada palabra en el audio, permitiendo sincronización automática de subtítulos.

共有するXB!