Amazon Transcribe 热门2017年〜

使用机器学习将语音自动转换为文本的服务

阅读约需 1 分钟最后更新： 2025-10-24

它能做什么

Amazon Transcribe 是一项使用自动语音识别（ASR）技术将语音转换为文本的服务。支持实时流式转录和批量音频文件转录。提供说话人识别、自定义词汇、自动标点、不当内容过滤等功能。支持多种语言。

使用场景

用于会议记录的自动生成、呼叫中心通话的文字化、视频字幕的自动生成、医疗记录的语音输入、播客内容的文字化。

日常类比

可以比作高速打字的速记员。将说话内容（语音）实时转换为文字记录，还能区分不同说话人并添加标点符号。

什么是 Transcribe

Amazon Transcribe 是一项语音转文本服务。通过 API 发送音频数据即可获取文本转录结果。支持实时流式转录（适合实时字幕）和异步批量转录（适合录音文件）。Transcribe Medical 专门针对医疗领域的术语进行了优化。

功能与定制

Transcribe 提供多种增强功能：说话人识别（区分多个说话人）、自定义词汇（提高专业术语的识别准确率）、自动语言识别（自动检测音频语言）、内容过滤（屏蔽不当词汇）、字幕生成（输出 SRT/VTT 格式）。Call Analytics 专门分析呼叫中心通话的情感和问题。如需深入了解语音识别的实践知识，可参考相关书籍（Amazon）。