AWS Fault Injection Simulator のアイコン

AWS Fault Injection Simulator Especializado2021年〜

Un servicio que inyecta fallos intencionalmente en entornos de AWS para probar la resiliencia del sistema

Qué hace

AWS Fault Injection Simulator (FIS) es un servicio administrado para practicar ingeniería del caos en AWS. Le permite crear experimentos controlados que inyectan fallos en sus recursos de AWS (detener instancias EC2, limitar el ancho de banda de red, agotar CPU) para verificar cómo responde su aplicación y mejorar su resiliencia.

Casos de uso

Se utiliza para validar que las aplicaciones se recuperan correctamente de fallos de instancias, probar el comportamiento bajo condiciones de red degradadas, verificar que los mecanismos de conmutación por error funcionan, prepararse para eventos de escalado, y cumplir con requisitos de resiliencia operativa.

Analogía cotidiana

Piense en ello como un simulacro de incendio para su infraestructura. Así como los simulacros de incendio prueban si las personas saben evacuar correctamente, FIS prueba si sus sistemas saben recuperarse de fallos. Es mejor descubrir problemas en un simulacro controlado que durante un incendio real.

¿Qué es AWS Fault Injection Simulator?

AWS FIS es un servicio de ingeniería del caos completamente administrado. La ingeniería del caos es la práctica de inyectar fallos deliberadamente en un sistema para descubrir debilidades antes de que causen interrupciones reales. FIS proporciona acciones predefinidas para simular diferentes tipos de fallos en servicios de AWS de manera segura y controlada.

Experimentos y acciones

Un experimento de FIS define qué fallos inyectar, en qué recursos y durante cuánto tiempo. Las acciones disponibles incluyen: detener/terminar instancias EC2, inyectar latencia de red, agotar CPU/memoria, fallar consultas de RDS, y más. Puede definir condiciones de parada que detengan automáticamente el experimento si las métricas superan umbrales seguros.

Seguridad y controles

FIS incluye múltiples controles de seguridad. Los roles IAM limitan qué recursos pueden ser afectados. Las condiciones de parada detienen automáticamente los experimentos si algo sale mal. Puede limitar el alcance a recursos específicos usando etiquetas o filtros. Todos los experimentos se registran en CloudTrail para auditoría. Para más información, libros en Amazon también son útiles.

Aspectos a tener en cuenta

  • Pricing is based on action execution time (per minute). No charges during experiment design
  • Without proper stop conditions, experiments may impact production more than expected. Always integrate with CloudWatch alarms
  • FIS experiments cause real impact on target resources. Test thoroughly in development or staging environments before running in production
共有するXB!