Amazon Bedrock Guardrails

Mecanismo de seguridad que controla las entradas y salidas de aplicaciones de IA generativa, realizando filtrado de contenido dañino y enmascaramiento de información personal

Descripción general

Amazon Bedrock Guardrails es un servicio que aplica controles de seguridad como filtrado de contenido, restricción de temas, enmascaramiento de información personal (PII) y detección de alucinaciones sobre los prompts de entrada y las respuestas de salida de aplicaciones de IA generativa. Opera independientemente del modelo fundacional utilizado en Bedrock, aplicando la misma política de guardrails incluso al cambiar de modelo, lo que garantiza una gobernanza de seguridad consistente en estrategias multi-modelo. Cada guardrail se puede versionar y gestionar de forma independiente, permitiendo probar nuevas políticas en entornos de desarrollo antes de aplicarlas en producción.

Filtros de contenido y control de temas

Los filtros de contenido de Guardrails evalúan tanto los prompts de entrada como las respuestas de salida en categorías como odio, insultos, contenido sexual y violencia, con niveles de sensibilidad configurables (NONE, LOW, MEDIUM, HIGH). Al establecer un nivel alto, incluso expresiones sutiles se bloquean, pero esto puede generar falsos positivos que afecten la experiencia del usuario, por lo que es necesario ajustar según el caso de uso. El control de temas permite definir temas específicos que el modelo no debe abordar (por ejemplo, asesoramiento de inversión, diagnóstico médico), bloqueando las respuestas cuando se detectan estos temas. A diferencia de Azure AI Content Safety, que opera como un servicio independiente, Guardrails está integrado nativamente en la API de Bedrock, lo que permite aplicar políticas de seguridad sin modificar el código de la aplicación.

Enmascaramiento de PII y verificación de grounding

La función de enmascaramiento de PII detecta automáticamente información personal como nombres, direcciones de correo electrónico, números de teléfono y números de tarjetas de crédito en las entradas y salidas, reemplazándolos con marcadores de posición. Se puede configurar por tipo de entidad si se enmascara o se bloquea completamente, permitiendo un diseño flexible según los requisitos de compliance. La verificación de grounding evalúa si la respuesta del modelo se basa en la información de referencia proporcionada, detectando alucinaciones (información fabricada). Cuando la puntuación de grounding cae por debajo del umbral, la respuesta se bloquea y se devuelve un mensaje alternativo. Libros sobre seguridad en IA (Amazon) permiten aprender sistemáticamente sobre gobernanza de IA.

Diseño operativo y monitoreo

En la operación de Guardrails, el ajuste de umbrales y el monitoreo de métricas son clave. Las métricas de invocación de Guardrails se publican en CloudWatch, permitiendo monitorear la tasa de bloqueo, la distribución de categorías de contenido detectadas y la latencia. Si la tasa de bloqueo es demasiado alta, puede indicar que los umbrales son excesivamente estrictos, requiriendo ajustes. El versionado permite gestionar múltiples versiones de un guardrail, probando nuevas políticas en desarrollo antes de aplicarlas en producción. En cuanto a costos, se cobra por unidad de texto evaluada, por lo que para aplicaciones con alto volumen de tráfico es importante estimar el costo de Guardrails como parte del costo total. La combinación con CloudTrail permite auditar quién cambió qué política y cuándo, cumpliendo con los requisitos de trazabilidad empresarial.

共有するXB!