Extracción automática de datos de documentos con Amazon Textract - OCR, análisis de tablas y reconocimiento de formularios

Explicamos la extracción de texto de documentos con Textract, el análisis de estructuras de tablas y la extracción de pares clave-valor de formularios.

約 4 分で読めます最終更新: 2025-11-30

Descripción general de Textract

Textract es un servicio OCR que extrae automáticamente texto, tablas y datos de formularios de documentos, soportando PDFs de hasta 3,000 páginas e imágenes de hasta 10 MB. Mientras que el OCR tradicional solo reconoce la posición y los caracteres del texto, Textract comprende la estructura de filas y columnas de las tablas y la relación entre etiquetas y valores de los formularios. La función Queries extrae respuestas a preguntas específicas de los documentos, y AnalyzeExpense estructura los detalles de las facturas.

Análisis de tablas y Queries

La función Tables de la API AnalyzeDocument reconoce las filas y columnas de las tablas y devuelve el contenido de las celdas como datos estructurados. También analiza correctamente las celdas combinadas y las filas de encabezado. La función Forms empareja automáticamente las etiquetas de formularios ("Nombre", "Dirección", "Teléfono") con sus valores correspondientes. Queries plantea preguntas en lenguaje natural al documento y extrae respuestas a preguntas como "¿Cuál es el nombre del paciente?" o "¿Cuál es el monto total?". AnalyzeExpense está especializado en recibos y facturas, clasificando automáticamente el nombre del proveedor, la fecha, el monto total, los impuestos y las líneas de detalle.

AnalyzeExpense y Lending

La API AnalyzeExpense está especializada en facturas y recibos, extrayendo como datos estructurados el nombre del proveedor, la fecha de facturación, el monto total y las líneas de detalle (nombre del artículo, cantidad, precio unitario). También maneja recibos escritos a mano y facturas de múltiples páginas, y puede utilizarse para la automatización de la liquidación de gastos. La API AnalyzeLending está especializada en documentos de préstamos como hipotecas, clasificando automáticamente tipos de documentos como solicitudes, certificados de ingresos y tasaciones inmobiliarias, y luego extrayendo campos de cada documento. Con la API asíncrona (StartDocumentAnalysis), puede construir pipelines que procesan grandes volúmenes de documentos por lotes y generan resultados en S3. Se integra con A2I (Augmented AI) para implementar flujos de trabajo que envían resultados de extracción con baja puntuación de confianza a revisión humana. Para comprender en profundidad la teoría e implementación de OCR, libros especializados (Amazon) son útiles.

Optimización de precios de Textract

Los precios de Textract se basan en el tipo de API y el número de páginas. DetectDocumentText (solo extracción de texto) cuesta aproximadamente 1.50 USD por 1,000 páginas, AnalyzeDocument (análisis de tablas y formularios) aproximadamente 15 USD, y Queries aproximadamente 0.015 USD por consulta. AnalyzeExpense cuesta aproximadamente 10 USD por 1,000 páginas. Cuando solo se necesita extracción de texto, use DetectDocumentText, y use AnalyzeDocument solo cuando se requiera análisis de estructura de tablas o formularios para optimizar costos. El preprocesamiento de documentos para excluir páginas innecesarias (páginas en blanco, portadas) reduce el número de páginas procesadas. La API asíncrona para procesamiento por lotes tiene el mismo precio que la API en tiempo real, pero es efectiva para evitar el throttling durante el procesamiento masivo.

Resumen

Textract es un servicio OCR avanzado que, además de la extracción de texto, comprende la estructura de tablas y los pares clave-valor de formularios. Queries extrae respuestas a preguntas específicas de los documentos, y AnalyzeExpense estructura los detalles de las facturas. AnalyzeLending realiza la clasificación y extracción automática de documentos de préstamos, y la integración con A2I permite construir flujos de trabajo que envían resultados de baja confianza a revisión humana.

Entrenamiento de machine learning basado en GPU con AWS Batch - Entrenamiento a gran escala con eficiencia de costosEjecute entrenamiento GPU con sus contenedores Docker existentes y reduzca costos hasta un 90% usando instancias Spot y checkpointing. Incluye orientación sobre cuándo elegir Batch sobre SageMaker.Uso de Claude en Amazon Bedrock - Selección de modelos, diseño de prompts y optimización de costosComparamos los modelos Anthropic Claude disponibles en Amazon Bedrock, proporcionamos directrices de selección de modelos por caso de uso y cubrimos mejores prácticas de diseño de prompts y optimización de costos.Construcción de aplicaciones RAG con Amazon Bedrock Knowledge Bases - Implementación de generación aumentada por recuperaciónIndexe automáticamente documentos en S3 y unifique búsqueda y generación con la API RetrieveAndGenerate. Cubre la selección de estrategia de chunking y la seguridad con Guardrails.Primeros pasos con computación cuántica en Amazon Braket - Diseño y simulación de circuitos cuánticosPrototipe gratis con simuladores locales y luego ejecute circuitos cuánticos en hardware IonQ y Rigetti. Cubre la implementación de VQE y QAOA con trabajos híbridos.ML con preservación de privacidad con AWS Clean Rooms ML - Construya modelos sin compartir datosAprenda cómo construir modelos lookalike con Clean Rooms ML, aplicar privacidad diferencial y aprovechar los resultados para segmentación publicitaria.Procesamiento de lenguaje natural con Amazon Comprehend - Análisis de sentimiento y extracción de entidadesExplicamos el análisis de sentimiento, la extracción de entidades y la construcción de modelos de clasificación personalizados con Comprehend.Construcción de bots conversacionales - Interfaces de conversación natural con Amazon Lex y PollyAprenda a construir bots conversacionales utilizando Amazon Lex y Amazon Polly.Extracción de texto de documentos - Procesamiento inteligente de documentos con Amazon TextractExplicamos la extracción automática de texto, tablas y datos de formularios de documentos con Amazon Textract, y la construcción de pipelines de procesamiento de lenguaje natural en combinación con Amazon Comprehend. Presentamos patrones de automatización para procesamiento de facturas y análisis de contratos.

Descripción general de Textract

Análisis de tablas y Queries

AnalyzeExpense y Lending

Optimización de precios de Textract

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares