Síntesis de voz con Amazon Polly - Control de voz con motor neuronal y SSML

Genera voz natural con el motor TTS neuronal y controla la velocidad de habla, tono y pausas con etiquetas SSML. Explicamos cómo construir diversos contenidos de audio con streaming en tiempo real y síntesis asíncrona a S3.

約 4 分で読めます最終更新: 2025-11-23

Descripción general de Polly

Amazon Polly es un servicio de texto a voz (TTS) que convierte texto en voz natural. El motor TTS neuronal utiliza modelos de aprendizaje profundo, generando un habla significativamente más natural en comparación con el motor TTS estándar convencional. Soporta más de 30 idiomas incluyendo japonés, más de 60 voces, pudiendo seleccionar voces masculinas, femeninas e infantiles. Las voces neuronales en japonés son Kazuha y Tomoko. El motor Generative utiliza los últimos modelos fundacionales para la más alta calidad de voz, actualmente disponible en inglés. El motor Long-Form está optimizado para contenido extenso como libros y artículos de noticias, ajustando automáticamente las pausas naturales entre párrafos y la entonación.

SSML y control de voz

Las etiquetas SSML (Speech Synthesis Markup Language) permiten controlar detalladamente cómo se lee el texto. La etiqueta ajusta la velocidad de habla (rate), tono (pitch) y volumen (volume), y la etiqueta inserta pausas en posiciones arbitrarias. La etiqueta permite especificar la pronunciación de palabras específicas en IPA (Alfabeto Fonético Internacional), previniendo errores de pronunciación en nombres propios y términos técnicos. La etiqueta especifica cómo leer números (números de teléfono, fechas, monedas), y la etiqueta añade énfasis. Al registrar un lexicón, se puede sobrescribir globalmente la pronunciación de palabras y frases específicas, ahorrando la necesidad de escribir SSML cada vez. En el motor neuronal, la etiqueta exclusiva de NTTS permite aplicar estilos como presentador de noticias o conversacional.

Métodos de síntesis e integración

Polly proporciona 2 métodos de síntesis. La API SynthesizeSpeech convierte texto a voz en tiempo real y devuelve un flujo de audio. La respuesta se reproduce directamente o se guarda en un archivo. Es adecuada para textos de 3,000 caracteres o menos. La API StartSpeechSynthesisTask es síntesis asíncrona que genera texto extenso en formato MP3 u OGG en un bucket S3. Puede procesar textos de hasta 200,000 caracteres, siendo adecuada para la generación masiva de audio de lectura de libros o anuncios. La función SpeechMark obtiene información de sincronización entre texto y audio (por palabra, por oración), útil para sincronización automática de subtítulos o lip sync. La integración con Connect genera dinámicamente guías de voz IVR, y la combinación con Lex permite construir bots de diálogo por voz. Sobre la aplicación de tecnología de voz, libros relacionados en Amazon también son una referencia útil.

Precios de Polly

Los precios de Polly se basan en pago por uso según los caracteres procesados. El motor neuronal cuesta aproximadamente 16.00 dólares por millón de caracteres, el motor estándar aproximadamente 4.00 dólares por millón de caracteres. El motor Generative cuesta aproximadamente 30.00 dólares por millón de caracteres. El motor Long-Form cuesta aproximadamente 100.00 dólares por millón de caracteres, siendo costoso pero especializado en audio de alta calidad para textos extensos como lectura de libros. La capa gratuita incluye durante los primeros 12 meses: 1 millón de caracteres/mes con motor neuronal y 5 millones de caracteres/mes con motor estándar. Las etiquetas SSML no se cuentan como caracteres, por lo que el uso de SSML no incrementa los costos.

Resumen

Amazon Polly es un servicio que genera voz natural con el motor TTS neuronal. Soporta la construcción de diversos contenidos de audio con control detallado de voz mediante SSML, 2 métodos de síntesis (streaming en tiempo real y síntesis asíncrona), y sincronización de subtítulos con SpeechMark. También se puede utilizar para construir sistemas de diálogo por voz mediante la integración con Connect y Lex.

Entrenamiento de machine learning basado en GPU con AWS Batch - Entrenamiento a gran escala con eficiencia de costosEjecute entrenamiento GPU con sus contenedores Docker existentes y reduzca costos hasta un 90% usando instancias Spot y checkpointing. Incluye orientación sobre cuándo elegir Batch sobre SageMaker.Uso de Claude en Amazon Bedrock - Selección de modelos, diseño de prompts y optimización de costosComparamos los modelos Anthropic Claude disponibles en Amazon Bedrock, proporcionamos directrices de selección de modelos por caso de uso y cubrimos mejores prácticas de diseño de prompts y optimización de costos.Construcción de aplicaciones RAG con Amazon Bedrock Knowledge Bases - Implementación de generación aumentada por recuperaciónIndexe automáticamente documentos en S3 y unifique búsqueda y generación con la API RetrieveAndGenerate. Cubre la selección de estrategia de chunking y la seguridad con Guardrails.Primeros pasos con computación cuántica en Amazon Braket - Diseño y simulación de circuitos cuánticosPrototipe gratis con simuladores locales y luego ejecute circuitos cuánticos en hardware IonQ y Rigetti. Cubre la implementación de VQE y QAOA con trabajos híbridos.ML con preservación de privacidad con AWS Clean Rooms ML - Construya modelos sin compartir datosAprenda cómo construir modelos lookalike con Clean Rooms ML, aplicar privacidad diferencial y aprovechar los resultados para segmentación publicitaria.Procesamiento de lenguaje natural con Amazon Comprehend - Análisis de sentimiento y extracción de entidadesExplicamos el análisis de sentimiento, la extracción de entidades y la construcción de modelos de clasificación personalizados con Comprehend.Construcción de bots conversacionales - Interfaces de conversación natural con Amazon Lex y PollyAprenda a construir bots conversacionales utilizando Amazon Lex y Amazon Polly.Extracción de texto de documentos - Procesamiento inteligente de documentos con Amazon TextractExplicamos la extracción automática de texto, tablas y datos de formularios de documentos con Amazon Textract, y la construcción de pipelines de procesamiento de lenguaje natural en combinación con Amazon Comprehend. Presentamos patrones de automatización para procesamiento de facturas y análisis de contratos.

Descripción general de Polly

SSML y control de voz

Métodos de síntesis e integración

Precios de Polly

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares