Extracción automática de datos de documentos con Amazon Textract - OCR, análisis de tablas y reconocimiento de formularios
Explicamos la extracción de texto de documentos con Textract, el análisis de estructuras de tablas y la extracción de pares clave-valor de formularios.
Descripción general de Textract
Textract es un servicio OCR que extrae automáticamente texto, tablas y datos de formularios de documentos, soportando PDFs de hasta 3,000 páginas e imágenes de hasta 10 MB. Mientras que el OCR tradicional solo reconoce la posición y los caracteres del texto, Textract comprende la estructura de filas y columnas de las tablas y la relación entre etiquetas y valores de los formularios. La función Queries extrae respuestas a preguntas específicas de los documentos, y AnalyzeExpense estructura los detalles de las facturas.
Análisis de tablas y Queries
La función Tables de la API AnalyzeDocument reconoce las filas y columnas de las tablas y devuelve el contenido de las celdas como datos estructurados. También analiza correctamente las celdas combinadas y las filas de encabezado. La función Forms empareja automáticamente las etiquetas de formularios ("Nombre", "Dirección", "Teléfono") con sus valores correspondientes. Queries plantea preguntas en lenguaje natural al documento y extrae respuestas a preguntas como "¿Cuál es el nombre del paciente?" o "¿Cuál es el monto total?". AnalyzeExpense está especializado en recibos y facturas, clasificando automáticamente el nombre del proveedor, la fecha, el monto total, los impuestos y las líneas de detalle.
AnalyzeExpense y Lending
La API AnalyzeExpense está especializada en facturas y recibos, extrayendo como datos estructurados el nombre del proveedor, la fecha de facturación, el monto total y las líneas de detalle (nombre del artículo, cantidad, precio unitario). También maneja recibos escritos a mano y facturas de múltiples páginas, y puede utilizarse para la automatización de la liquidación de gastos. La API AnalyzeLending está especializada en documentos de préstamos como hipotecas, clasificando automáticamente tipos de documentos como solicitudes, certificados de ingresos y tasaciones inmobiliarias, y luego extrayendo campos de cada documento. Con la API asíncrona (StartDocumentAnalysis), puede construir pipelines que procesan grandes volúmenes de documentos por lotes y generan resultados en S3. Se integra con A2I (Augmented AI) para implementar flujos de trabajo que envían resultados de extracción con baja puntuación de confianza a revisión humana. Para comprender en profundidad la teoría e implementación de OCR, libros especializados (Amazon) son útiles.
Optimización de precios de Textract
Los precios de Textract se basan en el tipo de API y el número de páginas. DetectDocumentText (solo extracción de texto) cuesta aproximadamente 1.50 USD por 1,000 páginas, AnalyzeDocument (análisis de tablas y formularios) aproximadamente 15 USD, y Queries aproximadamente 0.015 USD por consulta. AnalyzeExpense cuesta aproximadamente 10 USD por 1,000 páginas. Cuando solo se necesita extracción de texto, use DetectDocumentText, y use AnalyzeDocument solo cuando se requiera análisis de estructura de tablas o formularios para optimizar costos. El preprocesamiento de documentos para excluir páginas innecesarias (páginas en blanco, portadas) reduce el número de páginas procesadas. La API asíncrona para procesamiento por lotes tiene el mismo precio que la API en tiempo real, pero es efectiva para evitar el throttling durante el procesamiento masivo.
Resumen
Textract es un servicio OCR avanzado que, además de la extracción de texto, comprende la estructura de tablas y los pares clave-valor de formularios. Queries extrae respuestas a preguntas específicas de los documentos, y AnalyzeExpense estructura los detalles de las facturas. AnalyzeLending realiza la clasificación y extracción automática de documentos de préstamos, y la integración con A2I permite construir flujos de trabajo que envían resultados de baja confianza a revisión humana.