Automatización del procesamiento de documentos con Amazon Textract - Desde OCR hasta extracción de formularios y tablas
Extracción automática de datos de facturas, recibos y documentos de identidad mediante el reconocimiento estructural de formularios y tablas que va más allá del OCR. También presentamos la integración de revisión humana con A2I.
Sistema de APIs de Textract
Textract es un servicio de análisis de documentos basado en aprendizaje automático que proporciona extracción de datos estructurados que va más allá del OCR tradicional. DetectDocumentText es la función básica de OCR que extrae texto de imágenes y PDFs a nivel de línea y palabra. AnalyzeDocument es una función de análisis avanzada que reconoce formularios (pares clave-valor) y tablas (estructuras de filas y columnas). Por ejemplo, de un formulario de solicitud con "Nombre: Taro Yamada", empareja automáticamente la clave "Nombre" con el valor "Taro Yamada". AnalyzeExpense es una API especializada en facturas y recibos que extrae como datos estructurados el nombre del proveedor, la fecha de facturación, el monto total, los impuestos y las líneas de detalle. AnalyzeID extrae información como nombre, fecha de nacimiento y dirección de licencias de conducir y pasaportes.
Procesamiento asíncrono de grandes volúmenes de documentos
La API síncrona maneja imágenes de una sola página, pero para procesar PDFs de múltiples páginas o grandes volúmenes de documentos se utiliza la API asíncrona. Se inicia el procesamiento con StartDocumentTextDetection o StartDocumentAnalysis, y se envía una notificación de finalización a un tema SNS. El patrón estándar es una arquitectura dirigida por eventos donde una función Lambda recibe la notificación y obtiene los resultados con GetDocumentTextDetection o GetDocumentAnalysis. Al construir un pipeline que activa Lambda con la carga de documentos a S3, llama a Textract y almacena los resultados de extracción en DynamoDB, se puede automatizar completamente el procesamiento de documentos.
Mejora de la precisión y revisión humana
Los resultados de extracción de Textract incluyen una puntuación de confianza (0-100%) para cada campo. Para resultados cuya confianza está por debajo de un umbral, se puede enrutar a un flujo de trabajo de revisión humana utilizando Amazon Augmented AI (A2I). Los revisores verifican el documento original junto con los resultados de extracción en la consola de A2I y realizan correcciones. Los resultados corregidos se acumulan como retroalimentación y pueden utilizarse para mejorar la calidad del procesamiento posterior. La función de consultas de Textract permite especificar preguntas en lenguaje natural (por ejemplo: "¿Cuál es el nombre del paciente?") para extraer información específica de documentos, pudiendo manejar documentos con estructuras de formulario variables. Para aprender de forma integral sobre los algoritmos de Textract, consulte libros técnicos (Amazon).
Precios de Textract
Los precios de Textract se basan en pago por uso por API. DetectDocumentText (OCR) cuesta aproximadamente 0.0015 USD por página, AnalyzeDocument (formularios y tablas) aproximadamente 0.015 USD, AnalyzeExpense (facturas) aproximadamente 0.01 USD y AnalyzeID (documentos de identidad) aproximadamente 0.01 USD. La función Queries añade aproximadamente 0.005 USD por consulta a los aproximadamente 0.015 USD por página. Para procesar grandes volúmenes de documentos, puede optimizar costos con un procesamiento en dos etapas: primero ejecutar OCR con DetectDocumentText y luego aplicar AnalyzeDocument solo a las páginas que requieren extracción de datos estructurados.
Resumen
Textract es un servicio que va más allá del OCR tradicional, extrayendo datos con comprensión de la estructura del documento. Proporciona APIs especializadas según el tipo de documento: formularios, tablas, facturas y documentos de identidad, reduciendo significativamente el trabajo manual de entrada de datos. La integración con A2I para incorporar revisión humana permite abordar procesos empresariales que requieren alta precisión.