文档文本提取 - 通过 Amazon Textract 和 Comprehend 实现智能文档处理

解说通过 Amazon Textract 从文档中自动提取文本、表格和表单数据,以及与 Comprehend 联动实现的自然语言处理集成。介绍从发票处理到合同分析的实践用例。

文档处理的挑战与 Amazon Textract 的定位

企业业务流程中需要处理大量文档,如发票、收据、合同、申请表和身份证明。传统 OCR(光学字符识别)技术仅限于文本提取,不支持表格结构和表单键值对的识别。Amazon Textract 是利用机器学习的智能文档处理服务,可自动提取文本、表格和表单数据,并以结构化数据输出。

Textract 的 API 与文档处理管道

Textract 提供 3 个主要 API。DetectDocumentText 按行和词单位提取文档中的所有文本。AnalyzeDocument 除文本外还识别表格和表单结构,以结构化数据输出。AnalyzeExpense 专门用于发票和收据,自动识别供应商名称、日期、金额、行项目等字段。通过 S3 触发器和 Lambda 构建自动处理管道,文档上传后自动执行提取和分类。

与 Comprehend 联动的自然语言处理集成

将 Textract 提取的文本传递给 Amazon Comprehend,可应用高级自然语言处理。Comprehend 自动检测文本中的实体(人名、组织名、日期、金额)、关键短语、情感(正面/负面)和语言。合同分析中可自动提取当事方、日期、金额、条件等关键信息。与 Comprehend Medical 联动可从医疗文档中提取诊断名、药品名和治疗方法。

实践用例与精度提升方法

Textract 的应用广泛。财务部门通过发票自动处理消除手动数据录入,处理时间可削减 80% 以上。金融机构通过贷款申请文件的自动审查缩短从申请到批准的前置时间。保险业结合保险理赔文件的自动处理和欺诈检测,提高业务效率和准确性。精度提升方面,高分辨率扫描(300 DPI 以上)、适当的对比度和清晰的文字可提高识别精度。

Textract 的费用

DetectDocumentText(OCR)每页约 0.0015 美元,AnalyzeDocument(表单和表格)约 0.015 美元,AnalyzeExpense(发票)约 0.01 美元。Queries 功能每页约 0.015 美元。每月前 1,000 页免费。大量处理时可通过异步 API 批量处理降低单位成本。

总结 - 构建智能文档处理基础设施

Amazon Textract 是实现从文档自动提取文本、表格和表单数据的智能文档处理服务。通过与 Comprehend 联动,可对提取的文本应用自然语言处理,自动化实体提取、分类和情感分析。通过 S3、Lambda、Step Functions 构建端到端的文档处理管道,实现业务流程的自动化。