使用 Amazon Textract 从文档中自动提取数据 - OCR、表格解析与表单识别

解析 Textract 的文档文本提取、表格结构解析以及表单键值对提取。

Textract 概述

Textract 是一项从文档中自动提取文本、表格和表单数据的 OCR 服务,支持最大 3,000 页的 PDF 和最大 10 MB 的图像。与传统 OCR 仅识别文本位置和字符不同,Textract 能理解表格的行列结构和表单标签与值的关系。Queries 功能可从文档中提取特定问题的答案,AnalyzeExpense 可将发票明细结构化。

表格解析与 Queries

AnalyzeDocument API 的 Tables 功能识别表格的行和列,将单元格内容作为结构化数据返回。合并单元格和标题行也能正确解析。Forms 功能自动配对表单的标签(「姓名」「地址」「电话号码」)与对应的值。Queries 以自然语言向文档提问,提取「患者姓名是?」「总金额是?」等问题的答案。AnalyzeExpense 专门针对收据和发票,自动分类供应商名称、日期、总金额、税额和明细行。

AnalyzeExpense 与 Lending

AnalyzeExpense API 专门针对发票和收据,将供应商名称、开票日期、总金额、明细行(品名、数量、单价)作为结构化数据提取。支持手写收据和多页发票,可用于费用报销自动化。AnalyzeLending API 专门针对住房贷款等融资文件,自动分类申请表、收入证明、房产评估报告等文档类型后提取各文件的字段。通过异步 API (StartDocumentAnalysis) 可批量处理大量文档,构建将结果输出到 S3 的管道。与 A2I (Augmented AI) 集成,可实现将置信度分数较低的提取结果路由到人工审核工作流。 如需深入理解 OCR 的理论与实现,专业书籍 (Amazon)会有所帮助。

Textract 的成本优化

Textract 按 API 类型和页数计费。DetectDocumentText(仅文本提取)每 1,000 页约 1.50 美元,AnalyzeDocument(表格/表单解析)约 15 美元,Queries 每个查询约 0.015 美元。AnalyzeExpense 每 1,000 页约 10 美元。仅需文本提取时使用 DetectDocumentText,仅在需要表格或表单结构解析时使用 AnalyzeDocument 以优化成本。通过文档预处理排除不必要的页面(空白页、封面)减少处理页数。批量处理的异步 API 与实时 API 价格相同,但在大量处理时可有效避免限流。

总结

Textract 是一项除文本提取外还能理解表格结构和表单键值对的高级 OCR 服务。通过 Queries 从文档中提取特定问题的答案,通过 AnalyzeExpense 将发票明细结构化。通过 AnalyzeLending 进行融资文件的自动分类和提取,通过 A2I 集成构建将低置信度结果路由到人工审核的工作流。