Amazon Transcribe 热门2017年〜
使用机器学习将语音自动转换为文本的服务
它能做什么
Amazon Transcribe 是一项使用自动语音识别(ASR)技术将语音转换为文本的服务。支持实时流式转录和批量音频文件转录。提供说话人识别、自定义词汇、自动标点、不当内容过滤等功能。支持多种语言。
使用场景
用于会议记录的自动生成、呼叫中心通话的文字化、视频字幕的自动生成、医疗记录的语音输入、播客内容的文字化。
日常类比
可以比作高速打字的速记员。将说话内容(语音)实时转换为文字记录,还能区分不同说话人并添加标点符号。
什么是 Transcribe
Amazon Transcribe 是一项语音转文本服务。通过 API 发送音频数据即可获取文本转录结果。支持实时流式转录(适合实时字幕)和异步批量转录(适合录音文件)。Transcribe Medical 专门针对医疗领域的术语进行了优化。
功能与定制
Transcribe 提供多种增强功能:说话人识别(区分多个说话人)、自定义词汇(提高专业术语的识别准确率)、自动语言识别(自动检测音频语言)、内容过滤(屏蔽不当词汇)、字幕生成(输出 SRT/VTT 格式)。Call Analytics 专门分析呼叫中心通话的情感和问题。 如需深入了解语音识别的实践知识,可参考相关书籍(Amazon)。
开始使用
在 Transcribe 控制台上传音频文件或输入 S3 路径即可开始转录。选择语言和可选功能(说话人识别等)后启动作业。几分钟后即可获取 JSON 格式的转录结果。实时转录通过 WebSocket 流式 API 实现。
注意事项
- 实时流式转录通过 WebSocket API 实现
- 自定义词汇可以提高专业术语和专有名词的识别准确率