Amazon Bedrock Guardrails

生成 AI アプリケーションの入出力を制御し、有害コンテンツのフィルタリングや個人情報のマスキングを行う安全機構

概要

Amazon Bedrock Guardrails は、生成 AI アプリケーションの入力プロンプトと出力レスポンスに対して、コンテンツフィルタリング、トピック制限、個人情報 (PII) のマスキング、ハルシネーション検出などの安全制御を適用するサービスです。Bedrock で利用する基盤モデルに依存せず、モデルを切り替えても同一のガードレールポリシーが適用されるため、マルチモデル戦略においても一貫したセーフティネットを維持できます。エンタープライズ環境で生成 AI を本番導入する際に必須となる、コンプライアンス要件への対応とブランドリスクの軽減を、コードの変更なしに宣言的な設定で実現します。

コンテンツフィルターとトピック制御

Guardrails のコンテンツフィルターは、暴力、性的表現、侮辱、違法行為などのカテゴリごとにフィルタリング強度 (None、Low、Medium、High) を設定できます。入力 (ユーザーのプロンプト) と出力 (モデルのレスポンス) それぞれに独立した強度を設定でき、例えば入力は Medium で許容しつつ出力は High で厳格にフィルタリングする設計が可能です。Denied Topics 機能では、アプリケーションが扱うべきでないトピック (競合他社の製品推薦、政治的意見の表明、医療診断など) を自然言語で定義し、該当するプロンプトやレスポンスをブロックします。トピック定義は具体的な例文を添えることで検出精度が向上し、「投資アドバイスの提供」というトピックに対して「この株を買うべきですか」「おすすめの投資信託を教えて」などの例文を登録します。Word Filters では特定の単語やフレーズ (社内の機密プロジェクト名、競合製品名など) を明示的にブロックリストに追加できます。

PII マスキングとグラウンディングチェック

Sensitive Information Filters は、入出力に含まれる個人情報 (氏名、メールアドレス、電話番号、クレジットカード番号、マイナンバーなど) を自動検出し、マスキング (伏字化) またはブロックする機能です。検出対象の PII タイプを選択的に有効化でき、アプリケーションの要件に応じて「メールアドレスはマスキング、クレジットカード番号はブロック」のように動作を使い分けられます。正規表現ベースのカスタムパターンも定義でき、社員番号や顧客 ID など組織固有の識別子にも対応します。AI セキュリティの関連書籍 (Amazon) で生成 AI のリスク管理を学べます。Contextual Grounding Check は、RAG パイプラインでモデルが参照ドキュメントに基づかない情報を生成 (ハルシネーション) していないかを検証する機能で、グラウンディングスコアが閾値を下回るレスポンスを自動的にブロックします。

運用設計とモニタリング

Guardrails の運用では、フィルタリング強度のチューニングが継続的な課題になります。強度を上げすぎると正当なリクエストまでブロックされ (False Positive)、ユーザー体験が低下します。逆に弱すぎると有害コンテンツが通過するリスクがあります。推奨アプローチとして、まず Medium 強度で運用を開始し、CloudWatch Metrics でブロック率を監視しながら段階的に調整します。GuardrailBlocked メトリクスの急増はフィルタリングルールの見直しシグナルであり、ブロックされたリクエストのサンプルを確認して閾値を微調整します。Guardrails のバージョン管理機能により、ポリシーの変更履歴を保持し、問題が発生した場合に前のバージョンに即座にロールバックできます。コスト面では、Guardrails の処理料金はテキストの文字数に基づくため、入力プロンプトの長さを適切に制限する設計がコスト最適化に寄与します。複数のアプリケーションで同一の Guardrail を共有でき、組織全体で統一されたセーフティポリシーを効率的に適用できます。

共有するXB!