Amazon Comprehend

对文本进行情感分析、实体提取、主题建模等处理的全托管自然语言处理(NLP)服务

概述

Amazon Comprehend 是一项全托管服务,为文本数据提供情感分析、实体识别、关键短语提取、语言检测和主题建模等自然语言处理功能。除了预训练模型的即时分析外,还可使用自有数据训练自定义分类器和自定义实体识别器。医疗领域专用的 Amazon Comprehend Medical 可从临床文本中高精度提取药品名、疾病名和检验值等医疗实体。

预训练模型的应用与 NLP 任务分类

Comprehend 提供的 NLP 任务大致分为 5 类。情感分析将文本整体情感判定为 Positive、Negative、Neutral、Mixed 四类并返回各类的置信度分数。实体识别提取人名、组织名、日期、数量等命名实体。关键短语提取识别文本主要概念的短语。语言检测可识别 100 多种语言,适用于多语言内容的预处理。主题建模是从大量文档中自动发现潜在主题的异步批处理,可用于客户评论趋势分析和工单自动分类。这些 API 均为无状态,只需发送文本即可返回结果,无需 ML 专业知识即可立即使用。Azure 的 Text Analytics(现 Azure AI Language)也提供类似 NLP 功能,但 Comprehend 在批处理吞吐量方面更强,擅长对存储在 S3 中的大量文档进行批量分析。

使用自定义分类器构建业务专属文本分类

对于预训练模型无法满足的业务特定分类需求,自定义分类器非常有效。例如要将工单分为计费、技术问题、功能需求、退订等类别时,只需准备各类别的标注数据(CSV 格式)并提交给 Comprehend 训练即可构建自定义模型。训练数据最少 50 条即可开始,数据量越大精度越高。还支持多标签分类,可同时为一个文档分配多个类别。自定义实体识别器也采用相同机制,可训练从合同中提取合同期限、违约金条款等业务特定实体的模型。自然语言处理相关书籍(Amazon)详细讲解了从训练数据设计到模型评估的实践工作流。

Comprehend Medical 与数据管道设计实践

Amazon Comprehend Medical 是专门针对临床文本和医疗文档的 NLP 服务。可从电子病历的自由文本中提取药品名(含剂量、频率和给药途径)、疾病名、检查名和检查值、解剖部位等医疗实体并结构化。还具备 ICD-10-CM 和 RxNorm 链接功能,可将提取的实体映射到标准医疗编码体系。作为 HIPAA 合规服务,可处理包含受保护健康信息的数据。实际数据管道设计中,常见架构是通过 EventBridge 检测上传到 S3 的文本,经 Lambda 启动 Comprehend 批处理作业,将结果存储到 DynamoDB 或 OpenSearch 用于搜索和分析。

共有するXB!