运维管理

关于 CloudWatch、Systems Manager、Config 等运维管理服务的对比文章

使用 AWS Resilience Hub 评估应用容错能力 - RTO/RPO 目标达成可视化

解析 Resilience Hub 的应用容错能力评估、RTO/RPO 策略设置和改进建议的使用方法。

最后更新： 2026-05-30

使用 AWS AppConfig 实现功能开关 - 安全的配置部署与回滚

通过 Linear 和 Exponential 策略对独立于代码部署的配置变更进行渐进式发布。利用 CloudWatch 告警联动的自动回滚确保安全性。

最后更新： 2026-05-23

使用 AWS Well-Architected Tool 审查工作负载 - 基于 6 大支柱的架构改进

通过基于 6 大支柱的架构审查量化风险，使用自定义镜头添加组织特有的最佳实践。通过里程碑追踪改进进度。

最后更新： 2026-05-20

使用 AWS Organizations 实现多账户管理 - OU 设计与 SCP 治理

通过 OU 层级设计和 SCP 访问控制建立多账户环境的治理。同时介绍统一计费的成本管理。

最后更新： 2026-05-19

通过 AWS CloudFormation 实践 Infrastructure as Code - 模板设计与堆栈管理

通过模板定义基础设施，通过变更集预先确认影响范围。利用漂移检测发现配置偏差，通过 StackSets 向整个 Organizations 批量部署。

最后更新： 2026-05-18

使用 AWS RAM 实现跨账户资源共享 - VPC 子网与 Transit Gateway 共享

在账户间共享 VPC 子网和 Transit Gateway，实现 IP 地址空间统一管理并减少 VPC 对等连接。

最后更新： 2026-05-16

通过 AWS CloudTrail 实现 API 审计日志 - 跟踪设计与安全分析

记录所有 API 活动，通过 CloudTrail Lake 的 SQL 查询执行高级分析。介绍 Insights 自动检测异常模式以及与 EventBridge 联动的实时检测。

最后更新： 2026-05-03

使用 AWS Config 实现持续合规监控 - 规则评估与自动修复

详解 AWS Config 的资源配置记录、Config 规则的合规评估以及自动修复操作的设置。

最后更新： 2026-05-02

使用 AWS AppFabric 集中 SaaS 审计日志 - OCSF 标准化与 Security Lake 集成

详解 AppFabric 收集 SaaS 应用审计日志、转换为 OCSF 格式标准化，以及构建分析管道的方法。

最后更新： 2026-04-23

通过 AWS CloudShell 即刻开始 AWS 操作 - 浏览器 Shell 环境活用技巧

从控制台一键启动，在预装 AWS CLI、SAM CLI、CDK 的环境中即刻开始工作。1 GB 持久存储可保留脚本。

最后更新： 2026-04-22

Amazon CloudWatch Internet Monitor - 即时检测 ISP 故障并可视化用户影响

CloudWatch Internet Monitor 按 ISP、城市、ASN 粒度持续监控通过互联网访问应用程序的终端用户的可用性和性能。利用 AWS 全球网络观测数据，从性能劣化检测到 DNS 路由切换决策支持提供一体化服务。

最后更新： 2026-04-22

使用 AWS Control Tower 构建多账户环境 - 着陆区与护栏

通过着陆区的自动构建和护栏的策略应用，建立多账户环境的治理。介绍 Account Factory 的账户自动创建。

最后更新： 2026-04-21

通过 AWS Health Dashboard 构建事件管理 - 故障通知自动化与影响分析

从服务故障检测到 EventBridge 联动的自动通知，再到通过 Organizations 集成实现组织级影响分析，进行一体化介绍。

最后更新： 2026-04-21

AWS Backup 的集中备份管理 - 备份计划与跨区域保护

通过统一策略集中管理 EC2、RDS、DynamoDB 等多项服务的备份。介绍 Vault Lock 的 WORM 保护和恢复测试自动化。

最后更新： 2026-04-19

AWS 环境优化诊断 - 使用 Trusted Advisor 进行最佳实践检查

详解使用 AWS Trusted Advisor 进行环境自动诊断。介绍成本优化、安全性、容错性、性能和服务限制 5 个类别的检查项目及活用方法。

最后更新： 2026-04-17

用 AWS Service Catalog 实现 IT 治理 - 已批准产品的标准化与自助服务

将 IT 部门批准的 CloudFormation 模板编入目录，通过启动约束和模板约束安全地为终端用户提供自助服务。

最后更新： 2026-04-16

通过 Amazon CloudWatch 构建统一监控 - 指标、日志与告警的设计

通过指标、日志和告警三大支柱构建统一监控。介绍 Logs Insights 的交互式分析、复合告警的高精度通知以及 Embedded Metric Format 的使用方法。

最后更新： 2026-04-13

从 AWS 故障报告 (COE) 中学习分布式系统的教训 - 历次大规模故障如何改变了设计原则

从 AWS 公开的 Correction of Errors (COE) 和故障报告中，解析 S3 故障、us-east-1 DNS 故障、Kinesis 故障等历次大规模事件的根本原因，以及它们如何改变了 AWS 的设计原则。

最后更新： 2026-03-15

Undifferentiated Heavy Lifting 的本质 - AWS 解决的问题与不解决的问题之间的边界

深入探讨 AWS 反复使用的 Undifferentiated Heavy Lifting 这一概念的真正含义，解析托管服务的责任边界、共享责任模型的实际情况，以及全托管的幻想与现实。

最后更新： 2026-03-13

AWS Systems Manager 舰队管理 - 补丁应用、清单收集与 Run Command 自动化

通过 Patch Manager 自动化补丁应用，通过 Run Command 高效执行远程操作。同时介绍 Session Manager 实现的免 SSH Shell 访问。

最后更新： 2026-03-04

通过 AWS Marketplace 采购软件 - SaaS 订阅与私有报价

以 AMI、容器、SaaS 三种形态采购第三方软件并整合到 AWS 账单。解析通过 Private Marketplace 实现组织级治理及合同管理自动化的方法。

最后更新： 2026-02-16

基于 ML 的运维异常检测 - 使用 Amazon DevOps Guru 在预兆阶段发现故障

解析使用 Amazon DevOps Guru 进行基于 ML 的运维异常检测。介绍 CloudWatch 指标自动分析、异常预兆检测、推荐操作及 CloudFormation 堆栈级监控。

最后更新： 2026-01-10

使用 AWS Systems Manager Parameter Store 管理配置与密钥 - 层级结构与加密

讲解 Parameter Store 对配置值和密钥信息的管理、层级结构设计以及与 Secrets Manager 的区分使用。

最后更新： 2025-12-31

使用 AWS Chatbot 实现 DevOps 通知 - 向 Slack/Teams 推送 AWS 事件

将 CloudWatch 告警和 CodePipeline 通知推送到 Slack/Teams，通过 @aws 命令从聊天中操作 AWS，构建 ChatOps 环境。

最后更新： 2025-12-14

使用 Amazon Managed Grafana 构建统一可观测性仪表板

集成 CloudWatch、Prometheus、OpenSearch 数据源，构建多源可观测性仪表板的方法介绍。

最后更新： 2025-12-11

使用 Amazon Managed Service for Prometheus 进行容器监控 - EKS 指标的收集与分析

以 Prometheus 兼容方式收集 EKS/ECS 指标，通过 PromQL 查询。介绍与 Managed Grafana 集成构建容器监控基础设施的方法。

最后更新： 2025-11-30

使用 Amazon CloudWatch RUM 监控前端性能 - 真实用户监控

只需嵌入 JavaScript 代码片段即可实时收集页面加载时间、Web Vitals、JS 错误和 HTTP 错误。详解通过会话回放和自定义事件可视化前端质量的方法。

最后更新： 2025-11-27

架构评审 - 使用 AWS Well-Architected Tool 系统化评估工作负载

详解使用 AWS Well-Architected Tool 进行工作负载架构评审。介绍基于 6 大支柱的评估、改进计划的制定以及自定义透镜的应用。

最后更新： 2025-11-15

AWS 服务配额为何存在 - 保护共享基础设施的多租户设计

解析 AWS 服务配额（原服务限制）不仅是简单的约束，而是在多租户环境中保护其他客户的设计，从嘈杂邻居问题、软限制与硬限制的区别、配额提升申请的内部机制进行说明。

最后更新： 2025-10-22

系统运维管理效率化 - 使用 Systems Manager 构建统一运维平台

解析利用 AWS Systems Manager 的系统运维管理设计方法，介绍通过补丁管理、Parameter Store 和 Run Command 实现运维自动化的方法。

最后更新： 2025-10-08

标签设计决定运维 - AWS 资源标签策略的冷知识与实践命名规则

解析 AWS 资源标签不仅是简单标记，更是成本分配、访问控制、自动化基础的原因，以及标签键命名规则、50 个上限的使用方法、标签策略的治理。

最后更新： 2025-10-07

审计日志的设计与运维 - 使用 CloudTrail 完整记录 API 活动

详解使用 AWS CloudTrail 设计审计日志的方法，介绍 API 活动记录、S3 长期保存以及与 Config 联动实现合规应对。

最后更新： 2025-09-30

CloudWatch 的 1 分钟指标和 5 分钟指标为何并存 - 监控粒度与成本的权衡

详细介绍 CloudWatch 基本监控（5 分钟）和详细监控（1 分钟）分开设置的技术和经济原因、指标保留期的分阶段聚合以及自定义指标的高分辨率模式。

最后更新： 2025-09-29

Well-Architected Review 中最常见的指摘事项 - 现场工程师容易忽视的 5 个设计错误

解析 AWS Well-Architected Review 中反复被指出的设计问题，聚焦于单可用区部署、备份未设置、日志未活用、成本优化放置和安全组过度许可这 5 个方面。

最后更新： 2025-09-27

AWS 内部时间同步机制 - Amazon Time Sync Service 与闰秒平滑处理的设计

解析 AWS 自主运营的 Amazon Time Sync Service 的工作原理、基于 GPS 和原子钟的高精度时间源、通过平滑处理吸收闰秒的设计决策，以及分布式系统中时间同步的重要性。

最后更新： 2025-09-23

ChatOps 通知基础 - 使用 AWS Chatbot 实现运维自动化

介绍使用 AWS Chatbot 构建 ChatOps 通知基础的方法。包括向 Slack 和 Microsoft Teams 推送 AWS 事件通知、CloudWatch 告警即时推送、通过 SNS 联动实现事件响应自动化等提升运维效率的实践设计。

最后更新： 2025-08-15

IT 服务配置 - 通过 AWS Service Catalog 实现自助式基础设施交付

解析通过 AWS Service Catalog 将已批准的 IT 服务目录化，以及通过与 CloudFormation 联动实现自助式基础设施配置。介绍在维持治理的同时提高开发团队自主性的运维模式。

最后更新： 2025-08-13