Question 1

Amazon Comprehend とは何ですか？

Accepted Answer

Amazon Comprehend 是一项全托管服务，为文本数据提供情感分析、实体识别、关键短语提取、语言检测和主题建模等自然语言处理功能。除了预训练模型的即时分析外，还可使用自有数据训练自定义分类器和自定义实体识别器。医疗领域专用的 Amazon Comprehend Medical 可从临床文本中高精度提取药品名、疾病名和检验值等医疗实体。

Question 2

预训练模型的应用与 NLP 任务分类

Accepted Answer

Comprehend 提供的 NLP 任务大致分为 5 类。情感分析将文本整体情感判定为 Positive、Negative、Neutral、Mixed 四类并返回各类的置信度分数。实体识别提取人名、组织名、日期、数量等命名实体。关键短语提取识别文本主要概念的短语。语言检测可识别 100 多种语言，适用于多语言内容的预处理。主题建模是从大量文档中自动发现潜在主题的异步批处理，可用于客户评论趋势分析和工单自动分类。这些 API 均为无状态，只需发送文本即可返回结果，无需 ML 专业知识即可立即使用。Azure 的 Text Analytics（现 Azure AI Language）也提供类似 NLP 功能，但 Comprehend 在批处理吞吐量方面更强，擅长对存储在 S3 中的大量文档进行批量分析。

Question 3

使用自定义分类器构建业务专属文本分类

Accepted Answer

对于预训练模型无法满足的业务特定分类需求，自定义分类器非常有效。例如要将工单分为计费、技术问题、功能需求、退订等类别时，只需准备各类别的标注数据（CSV 格式）并提交给 Comprehend 训练即可构建自定义模型。训练数据最少 50 条即可开始，数据量越大精度越高。还支持多标签分类，可同时为一个文档分配多个类别。自定义实体识别器也采用相同机制，可训练从合同中提取合同期限、违约金条款等业务特定实体的模型。自然语言处理相关书籍（Amazon）详细讲解了从训练数据设计到模型评估的实践工作流。

Question 4

Comprehend Medical 与数据管道设计实践

Accepted Answer

Amazon Comprehend Medical 是专门针对临床文本和医疗文档的 NLP 服务。可从电子病历的自由文本中提取药品名（含剂量、频率和给药途径）、疾病名、检查名和检查值、解剖部位等医疗实体并结构化。还具备 ICD-10-CM 和 RxNorm 链接功能，可将提取的实体映射到标准医疗编码体系。作为 HIPAA 合规服务，可处理包含受保护健康信息的数据。实际数据管道设计中，常见架构是通过 EventBridge 检测上传到 S3 的文本，经 Lambda 启动 Comprehend 批处理作业，将结果存储到 DynamoDB 或 OpenSearch 用于搜索和分析。

概述

预训练模型的应用与 NLP 任务分类

使用自定义分类器构建业务专属文本分类

Comprehend Medical 与数据管道设计实践

相关术语

相关服务

相关文章

相似的术语与文章