Amazon Bedrock
通过 API 使用多个大语言模型的全托管服务,支持基于自有数据的定制和护栏配置
概述
Amazon Bedrock 是一项通过单一 API 使用 Anthropic Claude、Meta Llama、Amazon Titan 等多个基础模型 (Foundation Model) 的全托管服务。无需管理模型基础设施,只需发送提示即可将文本生成、摘要、代码生成、图像生成等生成式 AI 功能集成到应用程序中。通过 Knowledge Bases 功能可将企业文档用于检索增强生成 (RAG),通过 Guardrails 功能可配置有害内容过滤和个人信息脱敏等企业级控制机制。
多模型策略与避免供应商锁定
Bedrock 最大的特点是可以通过单一 API 切换 Anthropic Claude、Meta Llama、Mistral、Amazon Titan 等多个供应商的基础模型。相比 Azure OpenAI Service 仅限于 OpenAI 模型,Bedrock 可以无需代码变更即可切换模型,更容易避免对特定供应商的依赖。各模型擅长的领域不同:Claude 凭借 200K token 的宽广上下文窗口擅长长文分析,Llama 源自开源具有更高的微调自由度,Titan Embeddings 可作为 RAG 流水线的嵌入模型以低成本运维。在原型阶段并行评估多个模型,根据精度、延迟和成本的平衡确定生产模型是常见的方法。
Knowledge Bases 与 Agents 构建 RAG
Bedrock 的 Knowledge Bases 功能可将存储在 S3 中的 PDF 和文档自动分块、向量化并存储到 OpenSearch Serverless 中,数天内即可构建基于自然语言的企业信息检索 (RAG) 系统。设置数据源同步计划后,文档的添加和更新也会自动反映到向量索引中。Agents 功能更进一步,可以构建由 LLM 自主判断并执行外部 API 调用或数据库查询的工作流。生成式 AI 相关书籍 (Amazon) 可供系统学习 RAG 的设计模式。
限流对策与成本设计
在生产环境运维 Bedrock 时容易忽视的是按区域的限流限制。每个模型和区域的组合都有每分钟请求数和 token 数的上限,流量集中时会发生限流错误。对策包括启用 Cross-Region Inference 将负载分散到多个区域,或通过预置吞吐量确保专用容量。费用体系分为按需 (按 token 计费) 和预置吞吐量 (按小时固定费用) 两种,各模型单价差异较大,因此模型选择直接关系到成本优化。Guardrails 功能可配置有害内容过滤和个人信息脱敏,在企业环境中应同时考虑护栏的设计。