Amazon Comprehend 专业2017年〜
通过自然语言处理从文本中提取实体、情感和关键短语的服务
它能做什么
Amazon Comprehend 是一项使用自然语言处理(NLP)和机器学习从文本中提取有意义信息的服务。可以自动识别文本的语言、提取关键短语、分析情感(正面/负面/中性)、检测实体(人名、地名、组织名等)以及对文档进行分类。无需机器学习知识即可通过 API 使用。
使用场景
用于客户评论和社交媒体帖子的情感分析、客服工单的自动分类和路由、从合同和法律文件中提取关键信息、新闻文章的主题分类、医疗记录中的 PHI(受保护健康信息)检测等。
日常类比
可以将其比作一位能快速阅读大量文件的分析师。这位分析师阅读数千条客户评论后告诉您“70% 是正面评价,主要提到的是价格和质量”,还能从合同中找出所有人名和日期。人工做这些工作需要数天,但 Comprehend 几秒钟就能完成。
什么是 Comprehend
Amazon Comprehend 是一项通过自然语言处理分析文本的 AI 服务。支持英语、日语、中文等多种语言。无需准备训练数据或构建模型,只需通过 API 发送文本即可获得分析结果。还提供自定义分类和自定义实体识别功能,可以针对特定领域进行定制。
主要分析功能
Comprehend 提供多种分析功能。情感分析判断文本是正面、负面、中性还是混合情感。实体识别提取人名、地名、组织名、日期、数量等。关键短语提取识别文本中的重要表达。语言检测自动识别文本使用的语言。主题建模从大量文档中发现共同主题。
自定义模型
除了预构建的分析功能外,Comprehend 还支持自定义分类器和自定义实体识别器的训练。通过提供带标签的训练数据,可以创建针对特定业务领域的模型。例如,可以训练将客服工单自动分类为“退款请求”“技术问题”“一般咨询”等类别的模型。 关于自定义模型的构建方法,也可以参考相关书籍(Amazon)。
开始使用
在 Comprehend 控制台的“实时分析”中输入文本即可立即体验各种分析功能。程序化使用时,通过 AWS SDK 调用 DetectSentiment、DetectEntities 等 API。对于大量文档的批量处理,可以使用异步分析作业将结果输出到 S3。
注意事项
- 按处理的文本量(字符数)计费,大量文本处理时请提前估算成本
- 日语的分析精度可能不如英语,建议在实际数据上验证后再用于生产环境
- Comprehend Medical 是专门用于医疗文本分析的独立服务