Amazon Comprehend
テキストから感情、エンティティ、キーフレーズなどを自動抽出する自然言語処理サービス
何ができるか
Amazon Comprehend は、機械学習を活用した自然言語処理 (NLP) サービスです。テキストデータから感情分析 (ポジティブ・ネガティブ・ニュートラル・混合)、エンティティ抽出 (人名、組織名、場所など)、キーフレーズ抽出、言語検出、トピックモデリングなどを自動的に行います。事前トレーニング済みのモデルを使用するため、機械学習の専門知識がなくても API を呼び出すだけでテキスト分析を開始できます。カスタム分類やカスタムエンティティ認識のモデルを独自データで訓練することも可能です。
どのような場面で使うか
カスタマーレビューやアンケートの感情分析によるブランド評価、コールセンターの通話記録からのキーワード抽出と分類、法務文書からの固有名詞や日付の自動抽出、ソーシャルメディアの投稿分析によるトレンド把握、医療文書からの医学用語の抽出 (Comprehend Medical)、多言語コンテンツの自動言語判定など、テキストデータの分析全般で活用されています。 この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
身近な例え
優秀な読書アシスタントに例えるとわかりやすいでしょう。大量の手紙 (テキストデータ) が届いたとき、一通ずつ読んで「この手紙は怒っている」「この手紙には田中さんと東京が出てくる」「この手紙のポイントは納期遅延」と要点をまとめてくれるアシスタント (Comprehend) がいれば、全部自分で読まなくても内容を把握できます。
Comprehend とは
Amazon Comprehend は、テキストデータから有用な情報を自動的に抽出する自然言語処理サービスです。従来、テキスト分析には NLP の専門知識とモデルの訓練が必要でしたが、Comprehend は事前トレーニング済みのモデルを提供するため、API を呼び出すだけで高精度なテキスト分析を実行できます。英語、日本語、スペイン語など 12 以上の言語に対応しています。
主な分析機能
Comprehend は複数の分析機能を提供しています。感情分析ではテキスト全体のセンチメントをポジティブ・ネガティブ・ニュートラル・混合の 4 段階で判定し、各カテゴリの信頼度スコアを返します。エンティティ認識では人名、組織名、場所、日付、数量などの固有表現を自動抽出します。キーフレーズ抽出ではテキストの主要なトピックを表すフレーズを特定します。構文解析では品詞タグ付けやトークン化も可能です。
カスタムモデルと Comprehend Medical
Comprehend はカスタム分類とカスタムエンティティ認識の機能を提供しており、独自のラベル付きデータでモデルを訓練できます。たとえば、サポートチケットを「技術的問題」「請求関連」「機能要望」に自動分類するカスタムモデルを構築できます。また、Comprehend Medical は医療・ヘルスケア分野に特化したバリエーションで、医学用語、薬品名、診断名、治療法などの医療エンティティを高精度で抽出します。HIPAA 対応のため、医療データの処理にも安全に利用できます。
Azure・オンプレミスとの比較
AWS の優位点
- 事前トレーニング済みモデルにより機械学習の専門知識なしに API 呼び出しだけで感情分析やエンティティ抽出を即座に開始でき、導入コストを大幅に削減できる
- Comprehend Medical という医療特化バリエーションが HIPAA 対応で提供されており、医療文書からの医学用語抽出を安全かつ高精度に実行できる
- カスタム分類とカスタムエンティティ認識により独自データでモデルを訓練でき、業界固有の用語や分類体系に対応した高精度なテキスト分析を実現できる
注意点
- 日本語の感情分析精度は英語と比較して若干低い場合があるため、重要な判断に使用する際は結果の検証を行うこと
- 大量のテキストを一括分析する場合はバッチ処理 API を使用し、リアルタイム API の呼び出し回数制限に注意すること
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。