Amazon Transcribe

Servicio de reconocimiento automático de voz que convierte audio en texto con alta precisión, soportando transcripción en tiempo real, identificación de hablantes y vocabularios personalizados

Descripción general

Amazon Transcribe es un servicio de reconocimiento automático de voz (ASR) que convierte audio en texto utilizando modelos de deep learning. Soporta transcripción por lotes de archivos de audio almacenados en S3 y transcripción en streaming en tiempo real. Incluye funciones avanzadas como identificación de hablantes (diarización), vocabularios personalizados para terminología específica del dominio, redacción automática de información personal identificable (PII) y subtitulado automático.

Transcripción por lotes y en streaming

La transcripción por lotes procesa archivos de audio almacenados en S3 (MP3, MP4, WAV, FLAC, etc.) y genera resultados en JSON con marcas de tiempo a nivel de palabra y puntuaciones de confianza. La transcripción en streaming procesa audio en tiempo real mediante WebSocket o HTTP/2, entregando resultados parciales a medida que se procesa el audio, ideal para subtitulado en vivo y asistentes de voz. Transcribe soporta más de 100 idiomas y dialectos, con modelos optimizados para diferentes dominios como llamadas telefónicas (8 kHz) y medios de alta calidad (16+ kHz). La identificación automática de idioma detecta el idioma hablado sin configuración previa, útil para centros de contacto multilingües.

Vocabularios personalizados y modelos de lenguaje

Los vocabularios personalizados mejoran la precisión para terminología específica del dominio (nombres de productos, términos médicos, jerga técnica) que los modelos generales pueden no reconocer correctamente. Se proporcionan como listas de palabras o tablas con pronunciación fonética opcional. Los modelos de lenguaje personalizados (CLM) van más allá, entrenando el modelo con texto representativo del dominio para mejorar la precisión en contextos específicos. La redacción de PII identifica y enmascara automáticamente información sensible como números de tarjeta de crédito, números de seguro social y direcciones en la transcripción. El filtrado de vocabulario permite censurar palabras específicas, útil para contenido de medios donde se requiere filtrar lenguaje inapropiado.

Análisis de llamadas y casos de uso empresariales

Transcribe Call Analytics está diseñado específicamente para centros de contacto, proporcionando transcripción con análisis de sentimiento por turno de conversación, detección de categorías (quejas, solicitudes de cancelación), resúmenes automáticos de llamadas y métricas de conversación (tiempo de habla, interrupciones, períodos de silencio). Se integra con Amazon Connect para análisis post-llamada y en tiempo real. Los casos de uso empresariales incluyen generación automática de actas de reuniones, subtitulado de contenido multimedia, indexación de contenido de audio/video para búsqueda, documentación médica por dictado y cumplimiento regulatorio mediante transcripción y archivo de comunicaciones. La integración con Comprehend permite análisis de entidades y sentimiento sobre el texto transcrito, creando pipelines de inteligencia conversacional completos.

共有するXB!