Question 1

Amazon Textract とは何ですか？

Accepted Answer

Amazon Textract 是一项文档解析服务，利用机器学习从扫描文档、PDF、图像中自动提取文本、手写文字、表格结构和表单的键值对。超越传统 OCR，能理解文档的布局和结构，将非结构化文档转换为结构化数据。支持同步处理（单页、实时）和异步处理（多页 PDF、大批量）两种模式。

Question 2

超越 OCR 的结构化数据提取机制

Accepted Answer

传统 OCR 仅提取文本字符，Textract 则理解文档的逻辑结构。AnalyzeDocument API 的 FORMS 功能识别表单中的键值对（如「姓名：田中太郎」→ key:姓名, value:田中太郎），TABLES 功能识别表格的行列结构并保持单元格关系。QUERIES 功能允许用自然语言提问（如「总金额是多少？」），Textract 从文档中定位并提取答案。SIGNATURES 功能检测签名区域的存在。这些功能的组合使得发票、收据、申请表等业务文档的自动化处理成为可能，无需为每种文档格式编写自定义解析规则。

Question 3

异步处理与大批量文档管道设计

Accepted Answer

单页文档使用同步 API（DetectDocumentText、AnalyzeDocument）即时返回结果。多页 PDF 或大批量处理使用异步 API（StartDocumentAnalysis），Textract 在后台处理并通过 SNS 通知完成。典型的大批量管道设计：S3 上传触发 → Lambda 启动异步分析 → SNS 通知完成 → Lambda 获取结果并存入 DynamoDB。并发限制（默认每账户每区域的并发作业数）需要注意，大批量场景需实现队列化和节流。结果的置信度分数帮助决定是否需要人工审核——低置信度的提取结果路由到 Amazon A2I（Augmented AI）进行人工验证。

Question 4

业务文档专用 API 与精度提升技巧

Accepted Answer

AnalyzeExpense API 专为发票和收据优化，自动识别供应商名称、日期、金额、行项目等字段，无需配置。AnalyzeLending API 专为抵押贷款文档优化，自动分类和提取贷款申请中的数百个字段。AnalyzeID API 专为身份证件（驾照、护照）优化。精度提升技巧：输入图像分辨率建议 150 DPI 以上；倾斜校正可提升表格识别精度；对于固定格式文档，使用 QUERIES 功能比通用提取更精确；自定义适配器（Custom Adapters）可针对特定文档类型进行微调训练，显著提升专有格式的提取精度。费用按页数计费，DetectDocumentText 每 1,000 页 1.50 美元，AnalyzeDocument 每 1,000 页 15 美元起。

概述

超越 OCR 的结构化数据提取机制

异步处理与大批量文档管道设计

业务文档专用 API 与精度提升技巧

相关术语

相关服务

相关文章

相似的术语与文章