使用 AWS Resilience Hub 评估应用容错能力 - RTO/RPO 目标达成可视化

解析 Resilience Hub 的应用容错能力评估、RTO/RPO 策略设置和改进建议的使用方法。

約 3 分で読めます最終更新: 2026-05-30

弹性评估的必要性与 Resilience Hub 的定位

应用的容错能力 (弹性) 通过故障后的恢复时间 (RTO: Recovery Time Objective) 和可恢复的数据时间点 (RPO: Recovery Point Objective) 来量化。然而许多组织的 RTO/RPO 目标模糊，或未验证当前架构能否达成目标。Resilience Hub 解决这一问题，定量评估应用容错能力并可视化 RTO/RPO 达成状况。它从 CloudFormation 栈、Terraform 状态文件、AppRegistry 注册的应用或 EKS 集群自动检测资源配置。评估场景有 4 种: AZ 故障、区域故障、应用故障和基础设施故障，可为每个场景设置独立的 RTO/RPO 目标。检测的资源包括 EC2、RDS、DynamoDB、S3、ELB、Lambda、ECS、EKS 等，分析各资源的配置 (Multi-AZ 部署、复制设置、备份配置) 来计算容错分数。

弹性策略定义与评估执行

使用 Resilience Hub 从定义弹性策略开始。策略为每个故障场景设置 RTO/RPO 目标，例如「AZ 故障: RTO 1 小时、RPO 5 分钟」「区域故障: RTO 4 小时、RPO 1 小时」「应用故障: RTO 30 分钟、RPO 5 分钟」。然后注册应用，指定 CloudFormation 栈名后自动映射栈内资源和依赖关系。执行评估时分析各资源当前设置计算推估 RTO/RPO，对未达标资源提供带优先级的改进建议。建议示例包括: 将单 AZ RDS 转为 Multi-AZ、启用 S3 存储桶跨区域复制、提高 Auto Scaling 组最小实例数、启用 DynamoDB 的时间点恢复等。每条建议都附带成本影响和预期 RTO/RPO 改善效果，实施后重新评估可确认前后的分数差异。

FIS 集成与故障测试

Resilience Hub 与 FIS (Fault Injection Service) 集成，根据评估结果生成推荐的故障测试模板。在 AZ 故障、EC2 实例终止、RDS 故障切换、EBS I/O 暂停、网络延迟注入等场景下验证应用是否能实际达成 RTO/RPO 目标。评估结果记分卡用颜色 (绿: 达标、黄: 部分未达、红: 未达) 可视化各组件的容错级别，明确改进优先级。SOP (标准操作程序) 自动生成可标准化故障响应流程，并输出为 Systems Manager Automation 文档。通过评估 → 改进 → 测试 → 再评估的循环持续提升应用弹性。关于弹性设计的详细解析，可参考Amazon 相关书籍。

持续评估与运维集成

Resilience Hub 支持持续的弹性管理而非一次性评估。应用资源配置变更时，漂移检测会识别变更并提示重新评估。通过 EventBridge 集成可在评估完成时自动触发通知和后续操作，将评估步骤嵌入 CI/CD 流水线可在每次部署时检测容错回归。Organizations 集成支持跨多账户集中管理应用。除手动执行外还可设置定期调度，自动执行月度或季度评估。

设计最佳实践与常见陷阱

有效运用 Resilience Hub 需注意应用定义的粒度。将所有资源单体式地归入一个应用会使记分卡过于复杂，建议按业务域或团队拆分应用，并为每个应用分配适当的 RTO/RPO 层级。例如定义 Tier-1 (核心系统: RTO 5 分钟 / RPO 1 分钟)、Tier-2 (业务系统: RTO 30 分钟 / RPO 1 小时)、Tier-3 (信息系统: RTO 4 小时 / RPO 24 小时) 来避免过度设计。常见陷阱包括: 未纳入 CloudFormation 栈的资源 (手动创建的 S3 存储桶、DNS 记录) 不会被检测到。通过在 AppRegistry 中注册资源或使用 Resource Mapping 手动添加来防止评估遗漏。此外评估属于静态配置分析，不保证实际恢复时间。必须结合 FIS 进行实际故障测试才能确保记分卡的可靠性。

与其他 AWS 服务的比较

与容错相关的 AWS 服务还有 AWS Backup、CloudWatch、Health Dashboard，各自承担不同角色。AWS Backup 提供备份集中管理和恢复，但不评估整体架构的容错能力。CloudWatch 擅长实时异常检测，但不能对照 RTO/RPO 目标或生成改进建议。Health Dashboard 专注于 AWS 基础设施的故障通知。Resilience Hub 的独特价值在于整合这些服务提供的数据，从应用视角提供全面的容错评估和改进路线图。它与 Well-Architected Tool 的可靠性支柱互补: Well-Architected Review 提供定性设计审查，而 Resilience Hub 自动化定量评估和具体改进操作。

Resilience Hub 定价

Resilience Hub 按评估次数计费，每次评估约 0.10 美元。应用定义和 RTO/RPO 策略设置不收取额外费用。FIS 测试执行另行按 FIS 计费。建议按重要性选择评估对象，优先将业务关键应用纳入评估而非统一评估所有应用，以此管理成本。月度定期评估时每应用成本较低，但若嵌入 CI/CD 流水线在每次部署时评估，需注意评估次数的增加。

总结

Resilience Hub 是按组件级别定量评估应用容错能力并可视化 RTO/RPO 目标达成状况的服务。在弹性策略中为每个故障场景定义目标，从 CloudFormation 栈、Terraform 状态文件、EKS 集群自动检测架构，在 4 种故障场景下执行评估。改进建议附带成本影响评估，并可通过 FIS 集成自动化故障测试。漂移检测和 CI/CD 集成实现持续评估，按应用分割和 RTO/RPO 层级设计是有效运用的关键。

AWS 内部时间同步机制 - Amazon Time Sync Service 与闰秒平滑处理的设计解析 AWS 自主运营的 Amazon Time Sync Service 的工作原理、基于 GPS 和原子钟的高精度时间源、通过平滑处理吸收闰秒的设计决策，以及分布式系统中时间同步的重要性。使用 AWS AppFabric 集中 SaaS 审计日志 - OCSF 标准化与 Security Lake 集成详解 AppFabric 收集 SaaS 应用审计日志、转换为 OCSF 格式标准化，以及构建分析管道的方法。使用 AWS AppConfig 实现功能开关 - 安全的配置部署与回滚通过 Linear 和 Exponential 策略对独立于代码部署的配置变更进行渐进式发布。利用 CloudWatch 告警联动的自动回滚确保安全性。架构评审 - 使用 AWS Well-Architected Tool 系统化评估工作负载详解使用 AWS Well-Architected Tool 进行工作负载架构评审。介绍基于 6 大支柱的评估、改进计划的制定以及自定义透镜的应用。审计日志的设计与运维 - 使用 CloudTrail 完整记录 API 活动详解使用 AWS CloudTrail 设计审计日志的方法，介绍 API 活动记录、S3 长期保存以及与 Config 联动实现合规应对。从 AWS 故障报告 (COE) 中学习分布式系统的教训 - 历次大规模故障如何改变了设计原则从 AWS 公开的 Correction of Errors (COE) 和故障报告中，解析 S3 故障、us-east-1 DNS 故障、Kinesis 故障等历次大规模事件的根本原因，以及它们如何改变了 AWS 的设计原则。标签设计决定运维 - AWS 资源标签策略的冷知识与实践命名规则解析 AWS 资源标签不仅是简单标记，更是成本分配、访问控制、自动化基础的原因，以及标签键命名规则、50 个上限的使用方法、标签策略的治理。AWS 服务配额为何存在 - 保护共享基础设施的多租户设计解析 AWS 服务配额（原服务限制）不仅是简单的约束，而是在多租户环境中保护其他客户的设计，从嘈杂邻居问题、软限制与硬限制的区别、配额提升申请的内部机制进行说明。

弹性评估的必要性与 Resilience Hub 的定位

弹性策略定义与评估执行

FIS 集成与故障测试

持续评估与运维集成

设计最佳实践与常见陷阱

与其他 AWS 服务的比较

Resilience Hub 定价

总结

相关服务

相关文章

本主题的更多内容

相似的文章与服务