Question 1

Amazon Transcribe とは何ですか？

Accepted Answer

Amazon Transcribe 是一项语音识别服务，将音频数据自动转换为文本。支持实时流式转录和批处理两种模式，覆盖 100 多种语言。提供说话人识别（Speaker Diarization）、自定义词汇、自动标点、内容过滤等功能。Call Analytics 变体专为呼叫中心场景优化，Transcribe Medical 变体专为医疗领域优化。

Question 2

批处理与流式处理的设计模式

Accepted Answer

批处理模式适合已录制的音频文件（会议录音、播客、视频字幕）。将音频文件上传到 S3，调用 StartTranscriptionJob API，Transcribe 在后台处理并将结果输出到 S3。支持 MP3、MP4、WAV、FLAC 等格式，最长 4 小时。流式处理模式适合实时场景（直播字幕、实时会议记录、语音助手）。通过 WebSocket 或 HTTP/2 流式发送音频数据，Transcribe 实时返回转录结果。流式模式的延迟通常在 1-2 秒内。说话人识别可区分最多 10 位说话人，适合会议记录和访谈转录。通道识别（Channel Identification）可分别转录立体声音频的左右通道，适合呼叫中心的客服和客户分离。

Question 3

自定义词汇与语言模型调优

Accepted Answer

自定义词汇（Custom Vocabulary）解决专业术语、产品名称、人名等标准模型难以识别的词汇问题。以表格形式提供词汇列表，包含显示形式（DisplayAs）和发音提示（SoundsLike）。自定义语言模型（Custom Language Model）使用领域特定的文本语料训练，提升整体识别精度。适合法律、医疗、金融等专业领域。词汇过滤（Vocabulary Filter）可自动屏蔽或标记敏感词汇（脏话、个人信息），输出中以 *** 替换或添加标签。自动语言识别可在不指定语言的情况下自动检测音频语言，支持多语言混合场景。

Question 4

Call Analytics 与医疗版 Transcribe Medical

Accepted Answer

Transcribe Call Analytics 专为呼叫中心设计，在转录基础上提供情感分析（正面/负面/中性）、通话摘要、问题检测、静音时间分析等功能。可识别通话中的关键时刻（客户不满、升级请求）并自动标记。与 Contact Lens for Amazon Connect 集成实现端到端的呼叫分析。Transcribe Medical 针对医疗对话优化，支持医学术语、药品名称、解剖学词汇的高精度识别。符合 HIPAA 合规要求，适合医患对话记录、临床笔记生成。费用按音频时长计费，标准转录每秒 0.00024 美元（约每小时 0.864 美元），Call Analytics 和 Medical 费率略高。

概述

批处理与流式处理的设计模式

自定义词汇与语言模型调优

Call Analytics 与医疗版 Transcribe Medical

相关术语

相关服务

相关文章

相似的术语与文章