使用 AWS Resilience Hub 评估应用容错能力 - RTO/RPO 目标达成可视化
解析 Resilience Hub 的应用容错能力评估、RTO/RPO 策略设置和改进建议的使用方法。
关于 CloudWatch、Systems Manager、Config 等运维管理服务的对比文章
解析 Resilience Hub 的应用容错能力评估、RTO/RPO 策略设置和改进建议的使用方法。
通过 Linear 和 Exponential 策略对独立于代码部署的配置变更进行渐进式发布。利用 CloudWatch 告警联动的自动回滚确保安全性。
通过基于 6 大支柱的架构审查量化风险,使用自定义镜头添加组织特有的最佳实践。通过里程碑追踪改进进度。
通过 OU 层级设计和 SCP 访问控制建立多账户环境的治理。同时介绍统一计费的成本管理。
通过模板定义基础设施,通过变更集预先确认影响范围。利用漂移检测发现配置偏差,通过 StackSets 向整个 Organizations 批量部署。
在账户间共享 VPC 子网和 Transit Gateway,实现 IP 地址空间统一管理并减少 VPC 对等连接。
记录所有 API 活动,通过 CloudTrail Lake 的 SQL 查询执行高级分析。介绍 Insights 自动检测异常模式以及与 EventBridge 联动的实时检测。
详解 AWS Config 的资源配置记录、Config 规则的合规评估以及自动修复操作的设置。
详解 AppFabric 收集 SaaS 应用审计日志、转换为 OCSF 格式标准化,以及构建分析管道的方法。
从控制台一键启动,在预装 AWS CLI、SAM CLI、CDK 的环境中即刻开始工作。1 GB 持久存储可保留脚本。
CloudWatch Internet Monitor 按 ISP、城市、ASN 粒度持续监控通过互联网访问应用程序的终端用户的可用性和性能。利用 AWS 全球网络观测数据,从性能劣化检测到 DNS 路由切换决策支持提供一体化服务。
通过着陆区的自动构建和护栏的策略应用,建立多账户环境的治理。介绍 Account Factory 的账户自动创建。
从服务故障检测到 EventBridge 联动的自动通知,再到通过 Organizations 集成实现组织级影响分析,进行一体化介绍。
通过统一策略集中管理 EC2、RDS、DynamoDB 等多项服务的备份。介绍 Vault Lock 的 WORM 保护和恢复测试自动化。
详解使用 AWS Trusted Advisor 进行环境自动诊断。介绍成本优化、安全性、容错性、性能和服务限制 5 个类别的检查项目及活用方法。
将 IT 部门批准的 CloudFormation 模板编入目录,通过启动约束和模板约束安全地为终端用户提供自助服务。
通过指标、日志和告警三大支柱构建统一监控。介绍 Logs Insights 的交互式分析、复合告警的高精度通知以及 Embedded Metric Format 的使用方法。
从 AWS 公开的 Correction of Errors (COE) 和故障报告中,解析 S3 故障、us-east-1 DNS 故障、Kinesis 故障等历次大规模事件的根本原因,以及它们如何改变了 AWS 的设计原则。
深入探讨 AWS 反复使用的 Undifferentiated Heavy Lifting 这一概念的真正含义,解析托管服务的责任边界、共享责任模型的实际情况,以及全托管的幻想与现实。
通过 Patch Manager 自动化补丁应用,通过 Run Command 高效执行远程操作。同时介绍 Session Manager 实现的免 SSH Shell 访问。
以 AMI、容器、SaaS 三种形态采购第三方软件并整合到 AWS 账单。解析通过 Private Marketplace 实现组织级治理及合同管理自动化的方法。
解析使用 Amazon DevOps Guru 进行基于 ML 的运维异常检测。介绍 CloudWatch 指标自动分析、异常预兆检测、推荐操作及 CloudFormation 堆栈级监控。
讲解 Parameter Store 对配置值和密钥信息的管理、层级结构设计以及与 Secrets Manager 的区分使用。
将 CloudWatch 告警和 CodePipeline 通知推送到 Slack/Teams,通过 @aws 命令从聊天中操作 AWS,构建 ChatOps 环境。
集成 CloudWatch、Prometheus、OpenSearch 数据源,构建多源可观测性仪表板的方法介绍。
以 Prometheus 兼容方式收集 EKS/ECS 指标,通过 PromQL 查询。介绍与 Managed Grafana 集成构建容器监控基础设施的方法。
只需嵌入 JavaScript 代码片段即可实时收集页面加载时间、Web Vitals、JS 错误和 HTTP 错误。详解通过会话回放和自定义事件可视化前端质量的方法。
详解使用 AWS Well-Architected Tool 进行工作负载架构评审。介绍基于 6 大支柱的评估、改进计划的制定以及自定义透镜的应用。
解析 AWS 服务配额(原服务限制)不仅是简单的约束,而是在多租户环境中保护其他客户的设计,从嘈杂邻居问题、软限制与硬限制的区别、配额提升申请的内部机制进行说明。
解析利用 AWS Systems Manager 的系统运维管理设计方法,介绍通过补丁管理、Parameter Store 和 Run Command 实现运维自动化的方法。
解析 AWS 资源标签不仅是简单标记,更是成本分配、访问控制、自动化基础的原因,以及标签键命名规则、50 个上限的使用方法、标签策略的治理。
详解使用 AWS CloudTrail 设计审计日志的方法,介绍 API 活动记录、S3 长期保存以及与 Config 联动实现合规应对。
详细介绍 CloudWatch 基本监控(5 分钟)和详细监控(1 分钟)分开设置的技术和经济原因、指标保留期的分阶段聚合以及自定义指标的高分辨率模式。
解析 AWS Well-Architected Review 中反复被指出的设计问题,聚焦于单可用区部署、备份未设置、日志未活用、成本优化放置和安全组过度许可这 5 个方面。
解析 AWS 自主运营的 Amazon Time Sync Service 的工作原理、基于 GPS 和原子钟的高精度时间源、通过平滑处理吸收闰秒的设计决策,以及分布式系统中时间同步的重要性。
介绍使用 AWS Chatbot 构建 ChatOps 通知基础的方法。包括向 Slack 和 Microsoft Teams 推送 AWS 事件通知、CloudWatch 告警即时推送、通过 SNS 联动实现事件响应自动化等提升运维效率的实践设计。
解析通过 AWS Service Catalog 将已批准的 IT 服务目录化,以及通过与 CloudFormation 联动实现自助式基础设施配置。介绍在维持治理的同时提高开发团队自主性的运维模式。