语音转文本 - 使用 Amazon Transcribe 实现高精度自动语音转录

讲解 Amazon Transcribe 的语音转文本 (STT) 功能，以及与 Amazon Polly 结合构建双向语音处理管道的方法。介绍实时转录、说话人识别和自定义词汇提升精度的实践技巧。

約 2 分で読めます最終更新: 2025-08-27

语音转文本的需求与 Amazon Transcribe 的特点

会议记录、呼叫中心通话分析、视频字幕生成、医疗记录语音输入等将语音转换为文本的需求正在快速增长。Amazon Transcribe 是基于深度学习的自动语音识别 (ASR) 服务，能够将音频文件或实时音频流高精度地转换为文本。支持 100 多种语言和方言，日语识别精度也达到了较高水平。以下是通过 WebSocket 使用 Transcribe 实时流式传输的配置示例。 ```javascript const url = `wss://transcribestreaming.ap-northeast-1.amazonaws.com:8443 /stream-transcription-websocket ?language-code=ja-JP&media-encoding=pcm&sample-rate=16000`; ``` 标准提供自动标点插入、数字格式转换、不当词汇过滤等后处理功能。

实时转录与批量处理

Transcribe 提供实时流式传输和批量处理两种模式。实时流式传输通过 WebSocket 连接发送音频，在数秒内接收文本结果。适用于会议实时字幕、呼叫中心实时助手和直播自动字幕生成。部分结果 (Partial Results) 功能可在说话过程中显示中间文本，最终结果确定后更新为确定文本。批量处理异步处理存储在 S3 中的音频文件，以 JSON 格式将结果输出到 S3。可用于大量录音文件的批量转录和归档音频的可搜索化。说话人识别 (Speaker Diarization) 功能可自动区分多个说话人，记录谁在何时发言。通道识别功能可将立体声录音的左右通道识别为不同说话人。

自定义词汇与精度提升方法

Transcribe 的自定义词汇功能可提升行业专用术语、产品名称和人名的识别精度。通过在自定义词汇列表中注册单词及其发音（IPA 标记），可准确转录标准模型难以识别的术语。自定义语言模型 (CLM) 使用特定领域的文本数据微调模型，实现针对特定行业或组织上下文优化的识别精度。Transcribe Medical 是医疗领域专用模型，可高精度识别医学术语、药品名称和解剖学术语。在 HIPAA 合规环境中运行，可用于医疗记录语音输入和临床笔记自动生成。Transcribe Call Analytics 专注于呼叫中心通话分析，提供情感检测、通话分类和问题自动检测功能。如需全面学习自动语音转录的实现算法，请参阅技术书籍 (Amazon)。

与 Polly 结合的双向语音处理

结合 Transcribe 和 Polly，可构建从语音输入到文本处理再到语音输出的双向语音处理管道。工作流程为：使用 Transcribe 将用户语音转换为文本，通过 Lambda 执行自然语言处理或业务逻辑，然后使用 Polly 将响应转换为语音返回。与 Amazon Lex 集成可构建包含意图识别和槽位提取的完整语音对话系统。与 Amazon Connect 联动可在联络中心 IVR（自动语音应答）系统中嵌入高精度语音识别和自然语音合成。需要多语言支持时，可构建实时口译管道：Transcribe 识别语音，Amazon Translate 翻译文本，Polly 生成目标语言的语音。还可与 Kinesis Video Streams 联动，实时转录直播视频的音频轨道。

Transcribe 的定价

Transcribe 按处理的音频秒数计费。批量转录约 0.00024 美元/秒（约 0.864 美元/小时），每月前 60 分钟包含在免费套餐中。流式转录单价相同。Call Analytics 在常规转录费用基础上，每分钟额外收取约 0.02 美元的分析费用。使用自定义词汇无额外费用，但自定义语言模型的训练另行收费。Medical Transcribe 约 0.000575 美元/秒，约为标准版的 2.4 倍。

总结 - 构建语音转文本基础设施

Amazon Transcribe 是一项以全托管方式提供基于深度学习的高精度语音转文本服务。具备实时流式传输和批量处理两种模式、说话人识别、自定义词汇精度提升功能，支持 100 多种语言。结合 Polly 实现双向语音处理，与 Lex 集成构建语音对话系统，与 Translate 联动实现实时口译等，可作为多种语音应用的基础设施。通过与 S3、Lambda、Kinesis Video Streams 的集成，可构建无服务器语音处理管道。

语音转文本的需求与 Amazon Transcribe 的特点

实时转录与批量处理

自定义词汇与精度提升方法

与 Polly 结合的双向语音处理

Transcribe 的定价

总结 - 构建语音转文本基础设施

相关服务

相关文章

本主题的更多内容

相似的文章与服务