Amazon Textract
Servicio de ML que extrae automáticamente texto, escritura manual, tablas y datos de formularios de documentos escaneados y PDFs sin necesidad de configuración de plantillas
Descripción general
Amazon Textract es un servicio de machine learning que extrae automáticamente texto impreso, escritura manual, tablas y datos de formularios de documentos escaneados, imágenes y archivos PDF. A diferencia del OCR tradicional, Textract comprende la estructura del documento e identifica relaciones entre campos de formulario y sus valores, filas y columnas de tablas, sin necesidad de plantillas o reglas personalizadas. Se integra con S3 para procesamiento por lotes y soporta procesamiento asíncrono para documentos grandes.
APIs de detección y análisis de documentos
Textract ofrece múltiples APIs según el nivel de análisis requerido. DetectDocumentText extrae todo el texto de un documento con información de posición (bounding boxes) y confianza. AnalyzeDocument va más allá identificando la estructura: tablas (con filas, columnas y celdas), formularios (pares clave-valor) y firmas. AnalyzeExpense está especializado en facturas y recibos, extrayendo campos estándar como proveedor, fecha, total y líneas de detalle. AnalyzeID procesa documentos de identidad (pasaportes, licencias de conducir) extrayendo campos estandarizados. Para documentos de múltiples páginas o procesamiento masivo, las APIs asíncronas (StartDocumentAnalysis) procesan en segundo plano y notifican mediante SNS al completar, permitiendo procesar documentos de hasta 3,000 páginas.
Procesamiento de tablas y formularios con consultas personalizadas
La extracción de tablas identifica automáticamente la estructura tabular incluyendo celdas combinadas, encabezados y relaciones entre filas y columnas. Para formularios, Textract identifica pares clave-valor (por ejemplo, 'Nombre:' → 'Juan García') incluso cuando el diseño del formulario varía entre documentos. Las consultas (Queries) permiten hacer preguntas específicas sobre el documento en lenguaje natural (por ejemplo, '¿Cuál es la fecha de vencimiento?'), y Textract localiza y extrae la respuesta relevante. Esto es especialmente útil cuando solo se necesitan campos específicos de documentos complejos. La puntuación de confianza acompaña cada extracción, permitiendo implementar flujos de revisión humana para extracciones de baja confianza mediante Amazon Augmented AI (A2I).
Pipelines de procesamiento de documentos y casos de uso
Un pipeline típico de procesamiento de documentos con Textract incluye: ingesta de documentos en S3, trigger de Lambda para iniciar análisis, procesamiento de resultados para extraer campos relevantes, validación contra reglas de negocio y almacenamiento estructurado en DynamoDB o base de datos relacional. Para procesamiento inteligente de documentos (IDP), Textract se combina con Comprehend para clasificación de documentos y extracción de entidades, creando flujos end-to-end desde documento sin procesar hasta datos estructurados. Los casos de uso principales incluyen automatización de procesamiento de facturas, extracción de datos de formularios médicos, digitalización de registros históricos y procesamiento de solicitudes de préstamos. La integración con Step Functions orquesta pipelines complejos con manejo de errores y revisión humana para casos ambiguos.