Amazon Comprehend

Servicio de procesamiento de lenguaje natural (NLP) completamente administrado que realiza análisis de sentimiento, extracción de entidades y modelado de temas a partir de texto

Descripción general

Amazon Comprehend es un servicio completamente administrado que proporciona procesamiento de lenguaje natural sobre datos de texto, incluyendo análisis de sentimiento, reconocimiento de entidades, extracción de frases clave, detección de idioma y modelado de temas. Además del análisis inmediato con modelos pre-entrenados, permite entrenar clasificadores personalizados y reconocedores de entidades personalizados con datos propios para adaptarse a terminología y sistemas de clasificación específicos de la industria. Amazon Comprehend Medical está especializado en el dominio médico para extraer información clínica de textos médicos.

Uso de modelos pre-entrenados y diferenciación de tareas NLP

Comprehend proporciona múltiples tareas NLP listas para usar sin necesidad de entrenamiento. El análisis de sentimiento clasifica el texto en Positivo, Negativo, Neutro o Mixto con puntuaciones de confianza. El reconocimiento de entidades extrae automáticamente personas, organizaciones, lugares, fechas, cantidades y otros tipos de entidades del texto. La extracción de frases clave identifica los conceptos más importantes del documento. La detección de idioma identifica el idioma entre más de 100 idiomas soportados. El modelado de temas agrupa automáticamente grandes colecciones de documentos por tema. Estas funciones se pueden llamar individualmente vía API o procesar en lote grandes volúmenes de documentos almacenados en S3. El análisis de sintaxis proporciona etiquetado de partes del discurso (sustantivo, verbo, adjetivo, etc.) para cada palabra. Comparado con servicios similares como Google Cloud Natural Language API, Comprehend tiene la ventaja de la integración nativa con el ecosistema AWS y el soporte para clasificadores personalizados.

Construcción de clasificación de texto específica del negocio con clasificadores personalizados

Los clasificadores personalizados de Comprehend permiten entrenar modelos de clasificación de texto adaptados a las necesidades específicas del negocio. Proporcionando datos de entrenamiento etiquetados (texto + categoría), se entrena automáticamente un modelo de clasificación optimizado. Casos de uso incluyen clasificación de tickets de soporte por categoría, clasificación de sentimiento de reseñas de productos por aspecto, categorización de documentos legales por tipo y enrutamiento automático de emails. El formato de datos de entrenamiento soporta CSV (una línea por documento) y modo de manifiesto aumentado (integración con SageMaker Ground Truth). Se requieren al menos 50 documentos por categoría, pero se recomiendan más de 1,000 para mayor precisión. Los modelos entrenados se despliegan como endpoints en tiempo real o se usan en modo batch. Los endpoints en tiempo real tienen un costo por hora de operación, por lo que para uso intermitente es más económico el procesamiento batch. Los reconocedores de entidades personalizados permiten extraer entidades específicas del dominio (nombres de productos, códigos internos, terminología técnica) que los modelos pre-entrenados no reconocen.

Comprehend Medical y diseño de pipelines de datos en la práctica

Amazon Comprehend Medical es una versión especializada para el dominio médico que extrae información clínica de textos médicos no estructurados. Detecta condiciones médicas, medicamentos (nombre, dosis, frecuencia, vía de administración), procedimientos, anatomía y resultados de pruebas, vinculándolos con códigos estándar médicos (ICD-10-CM, RxNorm, SNOMED CT). Cumple con HIPAA, siendo adecuado para el procesamiento de datos de salud. En la práctica, los pipelines de datos con Comprehend siguen el patrón: documentos en S3 se procesan con Comprehend (vía Lambda o Step Functions), los resultados se almacenan en DynamoDB o OpenSearch para búsqueda y análisis. Para procesamiento en tiempo real, se integra con Kinesis Data Streams para analizar flujos de texto continuos (feeds de redes sociales, logs de chat de soporte). La combinación con Bedrock permite usar Comprehend para la extracción estructurada de entidades y sentimiento, mientras Bedrock maneja tareas de generación y resumen que requieren comprensión contextual más profunda.

共有するXB!