Amazon Textract 热门2018年〜
从文档中自动提取文本、表格和表单数据的 AI 服务
它能做什么
Amazon Textract 是一项使用机器学习从扫描文档、PDF、图像中自动提取文本、手写文字、表格和表单数据的服务。不仅进行简单的 OCR,还能理解文档的结构(表格的行列关系、表单的键值对关系),以结构化数据形式输出。
使用场景
用于发票和收据的自动处理、身份证件的信息提取、合同文档的数字化、医疗记录的结构化、贷款申请文件的自动审核。
日常类比
可以比作能理解文档结构的超级打字员。不仅能将纸质文档转为电子文本,还能理解表格的行列关系和表单中哪个标签对应哪个值。
什么是 Textract
Amazon Textract 是一项文档分析服务。传统 OCR 只能提取纯文本,而 Textract 能够理解文档的布局和结构。例如从发票中不仅提取文字,还能识别出金额、日期、供应商名称等字段及其对应关系。支持同步 API(单页)和异步 API(多页 PDF)。
分析类型
Textract 提供多种分析类型:文本检测(提取所有文本行和单词)、文档分析(提取表格和表单的结构化数据)、费用分析(专门针对发票和收据)、身份证件分析(驾照、护照等)、贷款文档分析。Queries 功能可以用自然语言指定要提取的信息。 如需深入了解文档分析的实践知识,可参考相关书籍(Amazon)。
开始使用
在 Textract 控制台上传文档图像即可试用。通过 API 集成时,将文档上传到 S3 后调用 AnalyzeDocument API。返回的 JSON 包含检测到的文本、表格和表单数据及其在页面上的位置信息。
注意事项
- 异步 API 支持多页 PDF 处理,同步 API 仅支持单页
- Queries 功能可以用自然语言指定要提取的信息,提高准确率