Automatización del procesamiento de documentos con Amazon Textract - Desde OCR hasta extracción de formularios y tablas

Extracción automática de datos de facturas, recibos y documentos de identidad mediante el reconocimiento estructural de formularios y tablas que va más allá del OCR. También presentamos la integración de revisión humana con A2I.

約 4 分で読めます最終更新: 2025-11-22

Sistema de APIs de Textract

Textract es un servicio de análisis de documentos basado en aprendizaje automático que proporciona extracción de datos estructurados que va más allá del OCR tradicional. DetectDocumentText es la función básica de OCR que extrae texto de imágenes y PDFs a nivel de línea y palabra. AnalyzeDocument es una función de análisis avanzada que reconoce formularios (pares clave-valor) y tablas (estructuras de filas y columnas). Por ejemplo, de un formulario de solicitud con "Nombre: Taro Yamada", empareja automáticamente la clave "Nombre" con el valor "Taro Yamada". AnalyzeExpense es una API especializada en facturas y recibos que extrae como datos estructurados el nombre del proveedor, la fecha de facturación, el monto total, los impuestos y las líneas de detalle. AnalyzeID extrae información como nombre, fecha de nacimiento y dirección de licencias de conducir y pasaportes.

Procesamiento asíncrono de grandes volúmenes de documentos

La API síncrona maneja imágenes de una sola página, pero para procesar PDFs de múltiples páginas o grandes volúmenes de documentos se utiliza la API asíncrona. Se inicia el procesamiento con StartDocumentTextDetection o StartDocumentAnalysis, y se envía una notificación de finalización a un tema SNS. El patrón estándar es una arquitectura dirigida por eventos donde una función Lambda recibe la notificación y obtiene los resultados con GetDocumentTextDetection o GetDocumentAnalysis. Al construir un pipeline que activa Lambda con la carga de documentos a S3, llama a Textract y almacena los resultados de extracción en DynamoDB, se puede automatizar completamente el procesamiento de documentos.

Mejora de la precisión y revisión humana

Los resultados de extracción de Textract incluyen una puntuación de confianza (0-100%) para cada campo. Para resultados cuya confianza está por debajo de un umbral, se puede enrutar a un flujo de trabajo de revisión humana utilizando Amazon Augmented AI (A2I). Los revisores verifican el documento original junto con los resultados de extracción en la consola de A2I y realizan correcciones. Los resultados corregidos se acumulan como retroalimentación y pueden utilizarse para mejorar la calidad del procesamiento posterior. La función de consultas de Textract permite especificar preguntas en lenguaje natural (por ejemplo: "¿Cuál es el nombre del paciente?") para extraer información específica de documentos, pudiendo manejar documentos con estructuras de formulario variables. Para aprender de forma integral sobre los algoritmos de Textract, consulte libros técnicos (Amazon).

Precios de Textract

Los precios de Textract se basan en pago por uso por API. DetectDocumentText (OCR) cuesta aproximadamente 0.0015 USD por página, AnalyzeDocument (formularios y tablas) aproximadamente 0.015 USD, AnalyzeExpense (facturas) aproximadamente 0.01 USD y AnalyzeID (documentos de identidad) aproximadamente 0.01 USD. La función Queries añade aproximadamente 0.005 USD por consulta a los aproximadamente 0.015 USD por página. Para procesar grandes volúmenes de documentos, puede optimizar costos con un procesamiento en dos etapas: primero ejecutar OCR con DetectDocumentText y luego aplicar AnalyzeDocument solo a las páginas que requieren extracción de datos estructurados.

Resumen

Textract es un servicio que va más allá del OCR tradicional, extrayendo datos con comprensión de la estructura del documento. Proporciona APIs especializadas según el tipo de documento: formularios, tablas, facturas y documentos de identidad, reduciendo significativamente el trabajo manual de entrada de datos. La integración con A2I para incorporar revisión humana permite abordar procesos empresariales que requieren alta precisión.

Entrenamiento de machine learning basado en GPU con AWS Batch - Entrenamiento a gran escala con eficiencia de costosEjecute entrenamiento GPU con sus contenedores Docker existentes y reduzca costos hasta un 90% usando instancias Spot y checkpointing. Incluye orientación sobre cuándo elegir Batch sobre SageMaker.Uso de Claude en Amazon Bedrock - Selección de modelos, diseño de prompts y optimización de costosComparamos los modelos Anthropic Claude disponibles en Amazon Bedrock, proporcionamos directrices de selección de modelos por caso de uso y cubrimos mejores prácticas de diseño de prompts y optimización de costos.Construcción de aplicaciones RAG con Amazon Bedrock Knowledge Bases - Implementación de generación aumentada por recuperaciónIndexe automáticamente documentos en S3 y unifique búsqueda y generación con la API RetrieveAndGenerate. Cubre la selección de estrategia de chunking y la seguridad con Guardrails.Primeros pasos con computación cuántica en Amazon Braket - Diseño y simulación de circuitos cuánticosPrototipe gratis con simuladores locales y luego ejecute circuitos cuánticos en hardware IonQ y Rigetti. Cubre la implementación de VQE y QAOA con trabajos híbridos.ML con preservación de privacidad con AWS Clean Rooms ML - Construya modelos sin compartir datosAprenda cómo construir modelos lookalike con Clean Rooms ML, aplicar privacidad diferencial y aprovechar los resultados para segmentación publicitaria.Procesamiento de lenguaje natural con Amazon Comprehend - Análisis de sentimiento y extracción de entidadesExplicamos el análisis de sentimiento, la extracción de entidades y la construcción de modelos de clasificación personalizados con Comprehend.Construcción de bots conversacionales - Interfaces de conversación natural con Amazon Lex y PollyAprenda a construir bots conversacionales utilizando Amazon Lex y Amazon Polly.Extracción de texto de documentos - Procesamiento inteligente de documentos con Amazon TextractExplicamos la extracción automática de texto, tablas y datos de formularios de documentos con Amazon Textract, y la construcción de pipelines de procesamiento de lenguaje natural en combinación con Amazon Comprehend. Presentamos patrones de automatización para procesamiento de facturas y análisis de contratos.

Sistema de APIs de Textract

Procesamiento asíncrono de grandes volúmenes de documentos

Mejora de la precisión y revisión humana

Precios de Textract

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares