AWS Elastic Disaster Recovery

Servicio de DR que replica continuamente servidores on-premises u otras nubes a AWS y permite failover en minutos

Descripción general

AWS Elastic Disaster Recovery (DRS) es un servicio que replica continuamente servidores on-premises y máquinas virtuales de otras nubes a AWS, permitiendo failover en minutos ante un desastre. Utiliza replicación a nivel de bloque para copiar continuamente los cambios de disco a volúmenes EBS de bajo costo en la región de destino, sin impactar el rendimiento de los servidores de origen. En caso de desastre, se lanzan instancias EC2 con la configuración especificada y se restauran los datos al punto de recuperación más reciente, logrando RPO de segundos y RTO de minutos.

Arquitectura de replicación continua de datos

DRS instala un agente ligero en los servidores de origen que captura los cambios a nivel de bloque del disco y los transmite de forma continua a la región de destino de AWS. Los datos se almacenan en volúmenes EBS de bajo costo (tipo gp2/gp3) en un área de staging, manteniendo una réplica actualizada del servidor de origen. La replicación es asíncrona y utiliza compresión y cifrado en tránsito para minimizar el uso de ancho de banda. El agente de replicación consume mínimos recursos del servidor de origen (típicamente menos del 5% de CPU) y no requiere reinicio para la instalación. La consola de DRS muestra el estado de replicación de cada servidor, incluyendo el lag de replicación y los puntos de recuperación disponibles. Se pueden configurar múltiples puntos de recuperación (hasta 365 días) para permitir la recuperación a un punto anterior en caso de corrupción de datos.

Simulacros de recuperación y operación de failback

DRS permite ejecutar simulacros de recuperación (Recovery Drills) sin impactar la replicación continua ni los servidores de origen. Los simulacros lanzan instancias EC2 desde los datos replicados en una subred aislada, permitiendo verificar que las aplicaciones funcionan correctamente tras la recuperación. Se recomienda ejecutar simulacros trimestralmente para validar los procedimientos de DR y detectar problemas de configuración. Tras un failover real, cuando el sitio primario se recupera, DRS soporta failback (retorno al sitio original). El proceso de failback invierte la dirección de replicación, copiando los datos desde AWS de vuelta al sitio primario. Una vez sincronizados, se realiza el cutover de vuelta al sitio original. Todo el proceso se gestiona desde la consola de DRS sin necesidad de reinstalar agentes o reconfigurar la replicación desde cero.

Launch templates y diseño de red

Los Launch Templates de DRS definen cómo se configuran las instancias EC2 durante el failover: tipo de instancia, subred de destino, grupos de seguridad, tipo de volumen EBS y configuración de red. Es crucial diseñar estos templates antes de un desastre real, incluyendo la asignación de direcciones IP, la configuración de DNS y las reglas de firewall necesarias para que las aplicaciones funcionen en el entorno de DR. Para la red, se recomienda pre-crear la VPC de DR con subredes que reflejen la topología del sitio primario. Route 53 health checks pueden automatizar la conmutación de DNS al detectar que el sitio primario no responde. La integración con Systems Manager permite ejecutar scripts post-lanzamiento para configuraciones adicionales como unión a dominio, instalación de agentes de monitoreo o actualización de cadenas de conexión de bases de datos.

共有するXB!