Amazon Textract
利用机器学习从文档中自动提取文本、手写文字、表格和表单键值对的文档解析服务
概述
Amazon Textract 是一项文档解析服务,利用机器学习从扫描文档、PDF、图像中自动提取文本、手写文字、表格结构和表单的键值对。超越传统 OCR,能理解文档的布局和结构,将非结构化文档转换为结构化数据。支持同步处理(单页、实时)和异步处理(多页 PDF、大批量)两种模式。
超越 OCR 的结构化数据提取机制
传统 OCR 仅提取文本字符,Textract 则理解文档的逻辑结构。AnalyzeDocument API 的 FORMS 功能识别表单中的键值对(如「姓名:田中太郎」→ key:姓名, value:田中太郎),TABLES 功能识别表格的行列结构并保持单元格关系。QUERIES 功能允许用自然语言提问(如「总金额是多少?」),Textract 从文档中定位并提取答案。SIGNATURES 功能检测签名区域的存在。这些功能的组合使得发票、收据、申请表等业务文档的自动化处理成为可能,无需为每种文档格式编写自定义解析规则。
异步处理与大批量文档管道设计
单页文档使用同步 API(DetectDocumentText、AnalyzeDocument)即时返回结果。多页 PDF 或大批量处理使用异步 API(StartDocumentAnalysis),Textract 在后台处理并通过 SNS 通知完成。典型的大批量管道设计:S3 上传触发 → Lambda 启动异步分析 → SNS 通知完成 → Lambda 获取结果并存入 DynamoDB。并发限制(默认每账户每区域的并发作业数)需要注意,大批量场景需实现队列化和节流。结果的置信度分数帮助决定是否需要人工审核——低置信度的提取结果路由到 Amazon A2I(Augmented AI)进行人工验证。
业务文档专用 API 与精度提升技巧
AnalyzeExpense API 专为发票和收据优化,自动识别供应商名称、日期、金额、行项目等字段,无需配置。AnalyzeLending API 专为抵押贷款文档优化,自动分类和提取贷款申请中的数百个字段。AnalyzeID API 专为身份证件(驾照、护照)优化。精度提升技巧:输入图像分辨率建议 150 DPI 以上;倾斜校正可提升表格识别精度;对于固定格式文档,使用 QUERIES 功能比通用提取更精确;自定义适配器(Custom Adapters)可针对特定文档类型进行微调训练,显著提升专有格式的提取精度。费用按页数计费,DetectDocumentText 每 1,000 页 1.50 美元,AnalyzeDocument 每 1,000 页 15 美元起。