使用 Amazon Transcribe 实现语音转文字 - 实时转换与自定义词汇表

提供批量和实时语音转文字功能,通过自定义词汇表提升行业专用术语的识别精度。同时介绍 Call Analytics 在联络中心质量管理中的应用。

Transcribe 的 API 体系

Transcribe 是一项将语音转换为文本的自动语音识别(ASR)服务。批量 API 异步处理存储在 S3 中的音频文件(MP3、MP4、WAV、FLAC 等),返回 JSON 格式的转录结果。流式 API 通过 WebSocket 或 HTTP/2 提供实时语音转文字,以数百毫秒的延迟生成文本。可应用于直播字幕、会议实时记录、联络中心实时辅助等场景。支持超过 100 种语言,包括日语、英语、中文、西班牙语、法语等主要语言以及众多方言变体。自动语言识别功能可自动判定输入音频的语言并使用适当的模型进行处理。

提升精度的自定义功能

自定义词汇表用于注册行业专用术语、产品名称、人名等标准模型识别精度较低的词汇。以表格形式定义词汇、发音(IPA)和显示形式,并应用于转录任务。例如,在医疗领域注册药品名和疾病名,在 IT 领域注册服务名和协议名,可大幅提升精度。自定义语言模型是更高级的自定义方式,将领域特定的文本数据(会议记录、手册、FAQ)作为训练数据输入,构建针对该领域的专用语言模型。词汇过滤器功能可自动从转录结果中遮蔽或删除不当词汇,对广播内容和公开会议记录的质量控制非常有效。

Call Analytics 与联络中心应用

Transcribe Call Analytics 是专为联络中心通话分析设计的功能。除通话转录外,还自动执行按说话人的情感分析(正面、负面、中性)、通话中断检测和静默时间测量。通过类别功能定义基于关键词或短语的规则,可自动分类通话。例如,可以自动标记包含"取消"或"投诉"关键词的通话,并将其纳入主管审核流程。自动内容编辑功能可从转录结果中自动遮蔽信用卡号、社会保障号等 PII 信息。与 Amazon Connect 集成后,可在座席屏幕上显示实时通话转录,同时 Contact Lens 自动从知识库搜索相关回答。 如果您想系统学习语音转文字相关知识,相关书籍(Amazon)也可供参考。

与其他语音识别服务的比较

Transcribe 最大的优势是与 AWS 生态系统的集成。可无缝实现从 S3 直接输入、Lambda 事件驱动处理、Connect 集成、以及与 Comprehend 的串联(转录后进行实体提取和情感分析)。Google Cloud Speech-to-Text 在语音识别模型精度(尤其是英语)方面有优势,说话人分离的粒度更细。Azure Speech Services 在 Microsoft 365 集成和 Teams 转录方面有优势。Transcribe 的差异化亮点在于:通过 Call Analytics 内置通话分析功能、通过 Medical Transcribe 提供医疗专用模型(HIPAA 合规)、以及 AWS 按量计费模式在低用量时的成本优势。已在 S3 中存储大量音频数据或在 AWS 上构建联络中心的组织,会发现 Transcribe 是最自然的选择。

Transcribe 的定价

Transcribe 按处理的音频秒数计费。批量转录约 0.00024 美元/秒(约 0.0144 美元/分钟),每月前 60 分钟包含在免费套餐中。流式转录约 0.00024 美元/秒。Call Analytics 在常规转录费用基础上,额外收取约 0.02 美元/分钟的分析费用。使用自定义词汇表无需额外付费,但自定义语言模型的训练需另行计费。处理大量音频文件时,可通过批量 API 异步处理,结合 S3 和 Lambda 的事件驱动管道优化成本。Medical Transcribe 采用单独的定价体系,约 0.000175 美元/秒。

设计最佳实践与注意事项

在生产环境运行 Transcribe 时有重要的设计注意事项。批量 API 默认有 250 个并发任务的限制,处理大量文件时需要使用 SQS 队列进行限流控制。流式 API 连接最长 4 小时后自动断开,因此长时间会议录音需要实现重连逻辑。音频质量直接影响识别精度,建议输入音频采样率 16kHz 以上、比特率 128kbps 以上。在噪音较多的环境(如呼叫中心电话线路)中,结合自定义词汇表和通道分离(每个说话人使用单独通道录音)可大幅提升精度。常见的生产模式是对转录结果使用 Comprehend 进行实体提取后处理,并将结构化数据存储到 DynamoDB

总结

Transcribe 是同时提供批量和实时语音转文字的 ASR 服务。通过自定义词汇表和语言模型提升领域专用精度,利用 Call Analytics 自动化联络中心的质量管理。结合 S3 和 Lambda 构建事件驱动架构,可实现以音频文件上传为触发器的自动转录管道。与 AWS 生态系统的紧密集成是其核心优势,在现有 AWS 基础设施上构建语音处理平台时是最佳选择。