通过 Amazon CloudWatch Internet Monitor 监控互联网性能 - 可用性与延迟可视化

解析 Internet Monitor 的互联网应用性能监控、按 ISP 的可用性分析和健康事件检测。

Internet Monitor 概述

Internet Monitor 利用全球 500 多个城市的互联网测量数据,分析 CloudFront 分配和 VPC 的流量,监控互联网应用性能。结合 AWS 在全球收集的互联网测量数据和应用流量数据,按 ISP 和地区可视化可用性和延迟。与传统的外部监控 (Synthetic Monitoring) 从探针位置测量可达性不同,Internet Monitor 检测实际用户流量路径上发生的问题,实现更接近真实用户体验的监控。在 AWS 管理控制台中只需几次点击即可创建监视器,指定 CloudFront 分配或 VPC 即可开始监控。

健康事件与活用模式

Internet Monitor 在互联网侧故障影响应用时生成健康事件。提供特定 ISP 可用性下降、特定地区延迟增加等信息。健康事件包含受影响流量和用户数的估计,可定量把握故障影响范围。可通过 EventBridge 接收通知,构建执行 CloudFront 源切换或 Route 53 故障转移的自动响应工作流。流量地理分布的可视化也可用于 CDN 边缘位置选择和区域配置优化。健康事件分为可用性下降和延迟增加两种类型,各自的阈值可自定义。

流量优化活用

利用 Internet Monitor 数据,可结合 CloudFront 源故障转移和 Route 53 健康检查进行流量优化。当特定 ISP 或地区性能下降时,可作为通过 Route 53 地理路由将流量引导到其他区域的判断依据。通过 EventBridge 接收健康事件,用 Lambda 自动修改 CloudFront 缓存行为或通过 SNS 通知运维团队。分析历史性能数据可识别特定时段或地区的常态性性能下降模式,优化 CDN 配置和源站配置。启用 S3 日志导出后,可使用 Athena 进行长期趋势分析和自定义报告创建。 关于 Internet Monitor 的网络设计深入理解,可参考Amazon 相关书籍

Internet Monitor 费用与设置

Internet Monitor 根据监控对象资源 (CloudFront 分配、VPC) 的流量计费。可设置监控流量比例为 1-100%,调整成本与覆盖范围的平衡。大规模流量下 10-25% 的采样也能获得统计上足够的精度。可用性评分和性能评分作为 CloudWatch 指标发布,可无缝集成到现有 CloudWatch 仪表板和告警中。调整健康事件阈值以防止轻微性能波动引起的告警疲劳。每个账户的监视器数量上限为数十个,多账户环境中在各账户分别创建监视器。

按用例的部署模式

全球 SaaS 应用中,监控 CloudFront 按地区了解最终用户体验,识别性能较差的地区,为增加边缘位置或采用 Origin Shield 提供决策依据。多区域 Web 应用中,当特定区域的路由出现问题时,通过 EventBridge + Lambda 自动调整 Route 53 加权路由,将流量从故障区域撤离。VPC 内的私有应用 (内部 SaaS、远程办公工具) 中,监控 VPC 流量检测特定 ISP 的访问劣化,为增加 VPN 网关或评估切换到 AWS Direct Connect 提供依据。金融、医疗等延迟要求严格的行业中,严格设置性能评分阈值,即使轻微劣化也能立即检测。

与 Synthetic Monitoring 的配合使用

CloudWatch Synthetics (Canary) 是从探针位置定期发送请求测量可用性和响应时间的外部监控,与 Internet Monitor 互补。Synthetics 擅长检测应用自身的故障 (服务器宕机、代码缺陷、证书过期),Internet Monitor 检测应用正常但用户路径上存在问题的情况。两者配合使用可立即判定「故障源于应用还是互联网路径」,缩短 MTTR (平均恢复时间)。Synthetics 通过脚本验证特定 URL 或工作流,在事务监控方面较强;Internet Monitor 在广域 ISP/地区故障的面状感知方面较强。

总结

Internet Monitor 是按 ISP 和地区可视化互联网应用性能的服务。自动检测互联网侧故障并通过健康事件通知,结合 Route 53 地理路由和 CloudFront 源故障转移提供流量优化的判断依据。与 Synthetics 配合使用加速故障隔离,通过采样率调整控制成本与覆盖范围的平衡。