Amazon CloudWatch Internet Monitor - 即时检测 ISP 故障并可视化用户影响

CloudWatch Internet Monitor 按 ISP、城市、ASN 粒度持续监控通过互联网访问应用程序的终端用户的可用性和性能。利用 AWS 全球网络观测数据,从性能劣化检测到 DNS 路由切换决策支持提供一体化服务。

终端用户视角监控的必要性背景

传统的 CloudWatch 指标主要监控 EC2 CPU 使用率和 ALB 延迟等 AWS 基础设施侧的指标。然而,即使应用程序运行正常,如果用户与 AWS 区域之间的互联网路径存在问题,终端用户仍会经历延迟或超时。ISP 故障、海底电缆损坏、特定地区的 BGP 路由异常等,这些 AWS 基础设施监控无法检测的问题,正是 Internet Monitor 要解决的领域。

利用 AWS 全球网络观测数据的机制

Internet Monitor 最大的特点是无需在用户侧部署独立的探针或代理。AWS 通过 CloudFront 的 600 多个边缘节点和 Route 53 的解析器网络,持续收集全球互联网路径的性能数据。Internet Monitor 将这些庞大的观测数据与用户指定的 AWS 资源(CloudFront 分配、VPC 等)的流量模式进行关联,按城市和 ISP 粒度计算可用性和性能评分。

健康事件的检测逻辑与阈值设计

Internet Monitor 将监控目标流量的可用性评分和性能评分计算为 0-100 的范围,当低于设定阈值时生成健康事件。默认阈值为可用性 95%、性能 95%,可根据应用程序的 SLA 进行自定义。重要的是,Internet Monitor 不仅检测全球整体评分的下降,还能识别特定城市或 ISP 的局部劣化。这使得可以精确定位「东京的 NTT 用户性能下降」等具体问题。

支持 DNS 路由切换决策的可视化

Internet Monitor 提供的流量洞察直接支持多区域架构中的 DNS 路由切换决策。例如,在东京区域和大阪区域的主动-主动配置中,当通往东京区域的路径上特定 ISP 的性能劣化时,需要判断是否应将相关用户的流量转向大阪区域。Internet Monitor 提供按区域和 ISP 分解的性能数据,使运维团队能够做出基于数据的路由决策。

成本结构与监控目标资源的设计

Internet Monitor 的费用基于监控目标资源处理的流量按量计费。每个监控器没有月度固定费用,根据监控目标的 CloudFront 分配或 VPC 通过的流量中 Internet Monitor 分析的比例收费。每个监控器可设置监控目标流量的上限,最大支持 500,000 个城市网络。对于小规模应用,可以将监控范围限制在主要流量来源的区域以控制成本。

运维设计要点与其他监控服务的区分使用

要有效运维 Internet Monitor,明确与 CloudWatch 其他监控功能的角色分工很重要。Synthetics 定期执行探针主动监控特定端点的响应,RUM 通过嵌入浏览器的 JavaScript 测量实际用户体验。Internet Monitor 与这些不同,它利用从 AWS 网络基础设施获得的被动观测数据,无需在用户侧部署任何组件即可检测互联网路径的问题。三者组合使用可实现从基础设施到终端用户的全方位可观测性。