Amazon Transcribe

将音频数据自动转换为文本的语音识别服务,支持实时流式和批处理,并支持说话人识别和自定义词汇

概述

Amazon Transcribe 是一项语音识别服务,将音频数据自动转换为文本。支持实时流式转录和批处理两种模式,覆盖 100 多种语言。提供说话人识别(Speaker Diarization)、自定义词汇、自动标点、内容过滤等功能。Call Analytics 变体专为呼叫中心场景优化,Transcribe Medical 变体专为医疗领域优化。

批处理与流式处理的设计模式

批处理模式适合已录制的音频文件(会议录音、播客、视频字幕)。将音频文件上传到 S3,调用 StartTranscriptionJob API,Transcribe 在后台处理并将结果输出到 S3。支持 MP3、MP4、WAV、FLAC 等格式,最长 4 小时。流式处理模式适合实时场景(直播字幕、实时会议记录、语音助手)。通过 WebSocket 或 HTTP/2 流式发送音频数据,Transcribe 实时返回转录结果。流式模式的延迟通常在 1-2 秒内。说话人识别可区分最多 10 位说话人,适合会议记录和访谈转录。通道识别(Channel Identification)可分别转录立体声音频的左右通道,适合呼叫中心的客服和客户分离。

自定义词汇与语言模型调优

自定义词汇(Custom Vocabulary)解决专业术语、产品名称、人名等标准模型难以识别的词汇问题。以表格形式提供词汇列表,包含显示形式(DisplayAs)和发音提示(SoundsLike)。自定义语言模型(Custom Language Model)使用领域特定的文本语料训练,提升整体识别精度。适合法律、医疗、金融等专业领域。词汇过滤(Vocabulary Filter)可自动屏蔽或标记敏感词汇(脏话、个人信息),输出中以 *** 替换或添加标签。自动语言识别可在不指定语言的情况下自动检测音频语言,支持多语言混合场景。

Call Analytics 与医疗版 Transcribe Medical

Transcribe Call Analytics 专为呼叫中心设计,在转录基础上提供情感分析(正面/负面/中性)、通话摘要、问题检测、静音时间分析等功能。可识别通话中的关键时刻(客户不满、升级请求)并自动标记。与 Contact Lens for Amazon Connect 集成实现端到端的呼叫分析。Transcribe Medical 针对医疗对话优化,支持医学术语、药品名称、解剖学词汇的高精度识别。符合 HIPAA 合规要求,适合医患对话记录、临床笔记生成。费用按音频时长计费,标准转录每秒 0.00024 美元(约每小时 0.864 美元),Call Analytics 和 Medical 费率略高。

共有するXB!