Extracción de texto de documentos - Procesamiento inteligente de documentos con Amazon Textract

Explicamos la extracción automática de texto, tablas y datos de formularios de documentos con Amazon Textract, y la construcción de pipelines de procesamiento de lenguaje natural en combinación con Amazon Comprehend. Presentamos patrones de automatización para procesamiento de facturas y análisis de contratos.

Desafíos del procesamiento de documentos y posicionamiento de Amazon Textract

En los procesos empresariales, es necesario procesar grandes volúmenes de documentos como facturas, recibos, contratos, formularios de solicitud y documentos de identidad. La tecnología OCR (reconocimiento óptico de caracteres) tradicional se limitaba a la extracción de texto y no soportaba el reconocimiento de estructuras de tablas ni pares clave-valor de formularios. Amazon Textract es un servicio de procesamiento inteligente de documentos que utiliza machine learning para extraer automáticamente texto, tablas y datos de formularios de documentos escaneados e imágenes. También soporta el reconocimiento de escritura manual, logrando el procesamiento de documentos no estructurados que era difícil con OCR tradicional. A continuación se muestra un ejemplo CLI para analizar un documento con Textract. ```bash aws textract analyze-document \ --document '{"S3Object":{"Bucket":"my-docs","Name":"invoice.pdf"}}' \ --feature-types '["TABLES","FORMS"]' \ --region ap-northeast-1 ``` La API AnalyzeDocument de Textract reconoce la estructura de tablas dentro de la página y la genera como datos estructurados manteniendo las relaciones entre filas y columnas.

APIs de Textract y pipeline de procesamiento de documentos

Textract proporciona 3 APIs principales. DetectDocumentText extrae todo el texto del documento en unidades de líneas y palabras. AnalyzeDocument reconoce la estructura de tablas y formularios además del texto, generando datos estructurados. AnalyzeExpense proporciona análisis especializado para facturas y recibos, identificando automáticamente campos como nombre del proveedor, fecha de facturación, monto total y líneas de detalle. AnalyzeID extrae información como nombre, fecha de nacimiento y dirección de documentos de identidad (licencia de conducir, pasaporte). Se puede construir un pipeline serverless donde Lambda detecta documentos subidos a S3 como trigger, los procesa con Textract y almacena los resultados en DynamoDB. Para procesar grandes volúmenes de documentos, se utiliza la API asíncrona para ejecutar procesamiento por lotes y detectar la finalización mediante notificaciones SNS. También es posible orquestar el flujo de trabajo con Step Functions, automatizando los pasos de extracción, validación y aprobación.

Integración con Comprehend para procesamiento de lenguaje natural

Al pasar el texto extraído con Textract a Amazon Comprehend, se puede aplicar procesamiento avanzado de lenguaje natural. Comprehend detecta automáticamente entidades (nombres de personas, organizaciones, fechas, montos), frases clave, sentimiento (positivo/negativo) e idioma del texto. En el análisis de contratos, se extrae texto con Textract y se identifican y clasifican automáticamente información importante como condiciones contractuales, plazos, montos y nombres de las partes con Comprehend. Al construir un modelo de clasificación personalizado de Comprehend, se pueden clasificar automáticamente documentos en categorías empresariales (facturas, presupuestos, órdenes de compra, contratos) y enrutarlos al flujo de procesamiento apropiado. Comprehend Medical proporciona NLP especializado para documentos médicos, extrayendo entidades médicas como diagnósticos, nombres de medicamentos, dosis y resultados de pruebas. Esta combinación permite construir un pipeline de Procesamiento Inteligente de Documentos (IDP) que automatiza completamente desde la ingesta de documentos hasta la extracción de información, clasificación y estructuración de datos. Para comprender en profundidad la teoría e implementación de la extracción de texto OCR, pueden ser útiles libros especializados (Amazon).

Casos de uso prácticos y enfoques para mejorar la precisión

Los usos de Textract son diversos. En departamentos de contabilidad, el procesamiento automático de facturas elimina la entrada manual de datos, reduciendo el tiempo de procesamiento en más del 80%. En instituciones financieras, la revisión automática de documentos de solicitud de préstamos acorta el tiempo desde la solicitud hasta la aprobación. En seguros, la combinación del procesamiento automático de documentos de reclamaciones con la detección de fraude mejora simultáneamente la eficiencia operativa y el cumplimiento. En recursos humanos, se automatiza la extracción de información de currículos y formularios de solicitud, optimizando el proceso de contratación. Utilizando la puntuación de confianza de Textract, se puede construir un flujo de trabajo Human-in-the-Loop que enruta los resultados de extracción de baja confianza a revisión humana, optimizando el equilibrio entre precisión y eficiencia. La integración con Amazon Augmented AI (A2I) permite estandarizar el proceso de revisión humana y establecer un ciclo de mejora continua que retroalimenta los resultados de revisión para mejorar el modelo.

Precios de Textract

DetectDocumentText (OCR) cuesta aproximadamente 0.0015 dólares por página, AnalyzeDocument (formularios y tablas) aproximadamente 0.015 dólares, y AnalyzeExpense (facturas) aproximadamente 0.01 dólares. La función Queries cuesta aproximadamente 0.015 dólares por página más aproximadamente 0.005 dólares por consulta. Al procesar grandes volúmenes de documentos, se puede optimizar el costo con un procesamiento en 2 etapas: primero procesar todas las páginas con OCR y luego aplicar AnalyzeDocument solo a las páginas que requieren extracción de datos estructurados.

Resumen - Construcción de una plataforma de procesamiento inteligente de documentos

Amazon Textract es un servicio de procesamiento inteligente de documentos que logra la extracción automática de texto, tablas y datos de formularios. Mediante la integración con Comprehend, se puede aplicar procesamiento de lenguaje natural al texto extraído, automatizando la extracción de entidades, clasificación y análisis de sentimiento. Con una arquitectura serverless que combina S3, Lambda y Step Functions, se puede construir un pipeline IDP que automatiza completamente desde la carga de documentos hasta la extracción de información, validación y estructuración de datos. La integración con Amazon A2I mediante flujos de trabajo Human-in-the-Loop optimiza el equilibrio entre precisión y eficiencia.