Síntesis de voz con Amazon Polly - Control de voz con motor neuronal y SSML
Genera voz natural con el motor TTS neuronal y controla la velocidad de habla, tono y pausas con etiquetas SSML. Explicamos cómo construir diversos contenidos de audio con streaming en tiempo real y síntesis asíncrona a S3.
Descripción general de Polly
Amazon Polly es un servicio de texto a voz (TTS) que convierte texto en voz natural. El motor TTS neuronal utiliza modelos de aprendizaje profundo, generando un habla significativamente más natural en comparación con el motor TTS estándar convencional. Soporta más de 30 idiomas incluyendo japonés, más de 60 voces, pudiendo seleccionar voces masculinas, femeninas e infantiles. Las voces neuronales en japonés son Kazuha y Tomoko. El motor Generative utiliza los últimos modelos fundacionales para la más alta calidad de voz, actualmente disponible en inglés. El motor Long-Form está optimizado para contenido extenso como libros y artículos de noticias, ajustando automáticamente las pausas naturales entre párrafos y la entonación.
SSML y control de voz
Las etiquetas SSML (Speech Synthesis Markup Language) permiten controlar detalladamente cómo se lee el texto. La etiqueta ajusta la velocidad de habla (rate), tono (pitch) y volumen (volume), y la etiqueta inserta pausas en posiciones arbitrarias. La etiqueta permite especificar la pronunciación de palabras específicas en IPA (Alfabeto Fonético Internacional), previniendo errores de pronunciación en nombres propios y términos técnicos. La etiqueta especifica cómo leer números (números de teléfono, fechas, monedas), y la etiqueta añade énfasis. Al registrar un lexicón, se puede sobrescribir globalmente la pronunciación de palabras y frases específicas, ahorrando la necesidad de escribir SSML cada vez. En el motor neuronal, la etiqueta exclusiva de NTTS permite aplicar estilos como presentador de noticias o conversacional.
Métodos de síntesis e integración
Polly proporciona 2 métodos de síntesis. La API SynthesizeSpeech convierte texto a voz en tiempo real y devuelve un flujo de audio. La respuesta se reproduce directamente o se guarda en un archivo. Es adecuada para textos de 3,000 caracteres o menos. La API StartSpeechSynthesisTask es síntesis asíncrona que genera texto extenso en formato MP3 u OGG en un bucket S3. Puede procesar textos de hasta 200,000 caracteres, siendo adecuada para la generación masiva de audio de lectura de libros o anuncios. La función SpeechMark obtiene información de sincronización entre texto y audio (por palabra, por oración), útil para sincronización automática de subtítulos o lip sync. La integración con Connect genera dinámicamente guías de voz IVR, y la combinación con Lex permite construir bots de diálogo por voz. Sobre la aplicación de tecnología de voz, libros relacionados en Amazon también son una referencia útil.
Precios de Polly
Los precios de Polly se basan en pago por uso según los caracteres procesados. El motor neuronal cuesta aproximadamente 16.00 dólares por millón de caracteres, el motor estándar aproximadamente 4.00 dólares por millón de caracteres. El motor Generative cuesta aproximadamente 30.00 dólares por millón de caracteres. El motor Long-Form cuesta aproximadamente 100.00 dólares por millón de caracteres, siendo costoso pero especializado en audio de alta calidad para textos extensos como lectura de libros. La capa gratuita incluye durante los primeros 12 meses: 1 millón de caracteres/mes con motor neuronal y 5 millones de caracteres/mes con motor estándar. Las etiquetas SSML no se cuentan como caracteres, por lo que el uso de SSML no incrementa los costos.
Resumen
Amazon Polly es un servicio que genera voz natural con el motor TTS neuronal. Soporta la construcción de diversos contenidos de audio con control detallado de voz mediante SSML, 2 métodos de síntesis (streaming en tiempo real y síntesis asíncrona), y sincronización de subtítulos con SpeechMark. También se puede utilizar para construir sistemas de diálogo por voz mediante la integración con Connect y Lex.