Amazon Bedrock Guardrails

控制生成式 AI 应用程序输入输出的安全机制,执行有害内容过滤和个人信息脱敏

概述

Amazon Bedrock Guardrails 是一项对生成式 AI 应用程序的输入提示和输出响应应用内容过滤、主题限制、个人身份信息 (PII) 脱敏、幻觉检测等安全控制的服务。它不依赖于 Bedrock 中使用的基础模型,即使切换模型也能应用相同的护栏策略,在多模型策略中维持一致的安全网。在企业环境中将生成式 AI 投入生产时,它通过声明式配置而非代码变更来满足合规要求并降低品牌风险。

内容过滤器与主题控制

Guardrails 的内容过滤器可以按暴力、色情、侮辱、违法行为等类别分别设置过滤强度 (None、Low、Medium、High)。输入 (用户提示) 和输出 (模型响应) 可以独立设置强度,例如输入设为 Medium 允许通过,而输出设为 High 进行严格过滤。Denied Topics 功能允许用自然语言定义应用程序不应处理的主题 (竞争对手产品推荐、政治观点表达、医疗诊断等),并阻止相关的提示或响应。通过添加具体示例可以提高检测精度,例如对"提供投资建议"这一主题注册"我应该买这只股票吗""推荐一下基金"等示例。Word Filters 可以将特定单词或短语 (内部机密项目名称、竞品名称等) 明确添加到阻止列表中。

PII 脱敏与事实性检查

Sensitive Information Filters 是自动检测输入输出中包含的个人信息 (姓名、电子邮件地址、电话号码、信用卡号、身份证号等) 并进行脱敏 (掩码) 或阻止的功能。可以选择性地启用检测目标的 PII 类型,根据应用需求灵活配置,如"电子邮件地址进行脱敏,信用卡号则阻止"。还支持定义基于正则表达式的自定义模式,可应对员工编号或客户 ID 等组织特有的标识符。AI 安全相关书籍 (Amazon) 可用于学习生成式 AI 的风险管理。Contextual Grounding Check 是验证 RAG 管道中模型是否生成了不基于参考文档的信息 (幻觉) 的功能,当事实性评分低于阈值时自动阻止响应。

运维设计与监控

在 Guardrails 的运维中,过滤强度的调优是持续性课题。强度设置过高会导致合法请求也被阻止 (False Positive),降低用户体验;过低则存在有害内容通过的风险。推荐的方法是先以 Medium 强度开始运行,通过 CloudWatch Metrics 监控阻止率并逐步调整。GuardrailBlocked 指标的急剧增加是过滤规则需要审查的信号,应检查被阻止请求的样本并微调阈值。Guardrails 的版本管理功能可保留策略变更历史,出现问题时可立即回滚到之前的版本。在成本方面,Guardrails 的处理费用基于文本字符数,因此适当限制输入提示长度的设计有助于成本优化。多个应用程序可以共享同一个 Guardrail,从而在整个组织中高效地应用统一的安全策略。

共有するXB!