Amazon Textract
ドキュメントからテキスト、テーブル、フォームデータを自動抽出する OCR サービス
何ができるか
Amazon Textract は、スキャン画像や PDF からテキスト、テーブル構造、フォームのキー・バリューペアを自動抽出する OCR サービスです。従来の OCR がテキストの位置と文字を認識するだけなのに対し、Textract はテーブルの行列構造やフォームのラベル・値の関係を理解します。
どのような場面で使うか
請求書や領収書のデータ抽出、契約書の自動処理、身分証明書の情報読み取り、医療記録のデジタル化、税務書類の自動入力などに利用されます。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
身近な例え
優秀な事務スタッフに例えられます。紙の書類を渡すと、テキストを読み取るだけでなく、表の構造を理解し、フォームの「氏名」欄に書かれた名前を正しく認識して、データベースに入力してくれます。
Textract とは
Amazon Textract は、ドキュメントからデータを自動抽出する AI サービスです。S3 に保存された画像や PDF を入力として、テキスト、テーブル、フォームデータを構造化された形式で返します。手書き文字の認識にも対応しており、印刷文書と手書き文書の両方を処理できます。
抽出機能の種類
Textract は複数の抽出機能を提供しています。DetectDocumentText はテキストの行と単語を抽出します。AnalyzeDocument の Tables 機能はテーブルの行列構造を認識します。Forms 機能はフォームのラベルと値のペアを抽出します。Queries は自然言語の質問に対する回答をドキュメントから抽出します。AnalyzeExpense は領収書と請求書に特化した抽出を行います。
はじめかた
Textract コンソールでサンプルドキュメントを使って機能を試せます。S3 にドキュメントをアップロードし、AWS SDK の AnalyzeDocument API を呼び出すと、JSON 形式で抽出結果が返されます。大量のドキュメントを処理する場合は非同期 API (StartDocumentAnalysis) を使用します。
注意点
- 抽出精度はドキュメントの品質 (解像度、コントラスト) に依存する。低品質のスキャン画像では精度が低下する場合がある
- ページ数と使用する機能 (テキスト抽出、テーブル解析、Queries など) に応じた従量課金
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。