使用 Amazon Textract 从文档中自动提取数据 - OCR、表格解析与表单识别

解析 Textract 的文档文本提取、表格结构解析以及表单键值对提取。

約 1 分で読めます最終更新: 2025-11-30

Textract 概述

Textract 是一项从文档中自动提取文本、表格和表单数据的 OCR 服务，支持最大 3,000 页的 PDF 和最大 10 MB 的图像。与传统 OCR 仅识别文本位置和字符不同，Textract 能理解表格的行列结构和表单标签与值的关系。Queries 功能可从文档中提取特定问题的答案，AnalyzeExpense 可将发票明细结构化。

表格解析与 Queries

AnalyzeDocument API 的 Tables 功能识别表格的行和列，将单元格内容作为结构化数据返回。合并单元格和标题行也能正确解析。Forms 功能自动配对表单的标签（「姓名」「地址」「电话号码」）与对应的值。Queries 以自然语言向文档提问，提取「患者姓名是？」「总金额是？」等问题的答案。AnalyzeExpense 专门针对收据和发票，自动分类供应商名称、日期、总金额、税额和明细行。

AnalyzeExpense 与 Lending

AnalyzeExpense API 专门针对发票和收据，将供应商名称、开票日期、总金额、明细行（品名、数量、单价）作为结构化数据提取。支持手写收据和多页发票，可用于费用报销自动化。AnalyzeLending API 专门针对住房贷款等融资文件，自动分类申请表、收入证明、房产评估报告等文档类型后提取各文件的字段。通过异步 API (StartDocumentAnalysis) 可批量处理大量文档，构建将结果输出到 S3 的管道。与 A2I (Augmented AI) 集成，可实现将置信度分数较低的提取结果路由到人工审核工作流。如需深入理解 OCR 的理论与实现，专业书籍 (Amazon)会有所帮助。

Textract 的成本优化

Textract 按 API 类型和页数计费。DetectDocumentText（仅文本提取）每 1,000 页约 1.50 美元，AnalyzeDocument（表格/表单解析）约 15 美元，Queries 每个查询约 0.015 美元。AnalyzeExpense 每 1,000 页约 10 美元。仅需文本提取时使用 DetectDocumentText，仅在需要表格或表单结构解析时使用 AnalyzeDocument 以优化成本。通过文档预处理排除不必要的页面（空白页、封面）减少处理页数。批量处理的异步 API 与实时 API 价格相同，但在大量处理时可有效避免限流。

总结

Textract 是一项除文本提取外还能理解表格结构和表单键值对的高级 OCR 服务。通过 Queries 从文档中提取特定问题的答案，通过 AnalyzeExpense 将发票明细结构化。通过 AnalyzeLending 进行融资文件的自动分类和提取，通过 A2I 集成构建将低置信度结果路由到人工审核的工作流。

Textract 概述

表格解析与 Queries

AnalyzeExpense 与 Lending

Textract 的成本优化

总结

相关服务

相关文章

本主题的更多内容

相似的文章与服务