AWS Graviton 与定制芯片策略 - 自研芯片改写云的经济性
将 AWS 自研的 Arm 架构 Graviton 处理器以及 Inferentia、Trainium 等 AI 定制芯片如何改变云的成本结构和性能,与 Azure、GCP 进行比较。
云服务商为何自研芯片
在云计算的成本结构中,服务器处理器是最大的成本因素之一。传统上云服务商从 Intel 或 AMD 购买通用处理器装入服务器。但通用处理器为各种工作负载设计,对特定用途而言存在不必要的功能和功耗。自研芯片可以针对云工作负载的特性进行优化,去除不必要的功能,最大化性能功耗比。AWS 于 2015 年收购了以色列芯片设计公司 Annapurna Labs,开始了定制芯片战略。这一决策的背景是对 Intel 单一供应商依赖的风险认识,以及通过自研芯片实现差异化的战略判断。
Graviton 的技术优势
Graviton 处理器的优势不仅是价格便宜,而在于针对云工作负载的专门设计。Graviton4 搭载 96 核,与 Graviton3 相比计算性能提升最高 30%,内存带宽提升 75%。每核独立的 L2 缓存和优化的分支预测使多线程工作负载的性能大幅提升。Graviton 的能效比(每瓦性能)比同等 x86 实例高约 60%。这不仅降低电力成本,也有助于 AWS 的可持续发展目标。对客户而言,Graviton 实例比同等 x86 实例便宜约 20%,同时在许多工作负载中表现出同等或更优的性能。
与 Azure 和 GCP 定制芯片策略的比较
Azure 长期依赖 Intel 和 AMD 的通用处理器,但 2023 年发布了自研 Arm 架构处理器 Cobalt 100。搭载 128 核,面向通用工作负载设计。但 Cobalt 100 是第一代产品,与经过 4 代进化的 Graviton 相比生态系统成熟度和实绩有差距。GCP 的定制芯片策略集中在 AI 领域。TPU(Tensor Processing Unit)是 Google 自研的 AI 专用处理器,在机器学习训练和推理方面具有独特优势。但 GCP 在通用计算领域没有自研处理器,依赖 Intel 和 AMD。AWS 的定制芯片策略覆盖通用计算(Graviton)、AI 推理(Inferentia)、AI 训练(Trainium)三个领域,是最全面的方案。
Inferentia 和 Trainium - AI 时代的定制芯片
随着生成 AI 的快速普及,AI 工作负载的计算需求爆发式增长。NVIDIA GPU 是 AI 工作负载的事实标准,但需求激增导致供应紧张、价格高涨。AWS 以自研 AI 芯片应对这一课题。Inferentia 是 AI 推理专用芯片。Inferentia2 与同等 GPU 实例相比推理成本最多降低 50%,延迟也更低。适合需要大量推理请求的生产环境。Trainium 是 AI 训练专用芯片。Trainium2 与同等 GPU 实例相比训练成本最多降低 50%。支持大规模分布式训练,可训练数千亿参数的大型语言模型。
定制芯片的经济影响
定制芯片策略的经济影响不仅限于芯片价格差。使用自研芯片可以消除对 Intel 和 AMD 的许可费和利润,直接控制芯片成本结构。这些节省以实例价格降低的形式回馈客户。此外,自研芯片使 AWS 不受 Intel/AMD 的产品路线图制约,可按自身节奏推进性能改进。Graviton 的世代更新周期约 18 个月,比 Intel 的 Tick-Tock 模型更快。这种独立的创新节奏是依赖外部供应商的竞争对手无法实现的。
迁移的容易度与生态系统的成熟
定制芯片的优势再高,如果无法迁移现有工作负载就没有意义。向 Graviton 的迁移对许多工作负载来说相对容易。Linux 工作负载只需重新编译为 Arm 兼容二进制即可。主要编程语言(Java、Python、Node.js、Go 等)和框架已完全支持 Arm。容器化工作负载通过多架构镜像可同时支持 x86 和 Arm。AWS 提供迁移指南和兼容性检查工具,支持顺利过渡。Amazon Linux 2023、Ubuntu、RHEL 等主要 Linux 发行版都提供 Arm 版本。如果想学习处理器技术,相关书籍 (Amazon) 也可供参考。
总结
AWS 的定制芯片策略以覆盖通用计算(Graviton)、AI 推理(Inferentia)、AI 训练(Trainium)三个领域的全面方案展开。Graviton 经过 4 代进化,以比 x86 便宜约 20% 的价格提供同等或更优的性能。Inferentia 和 Trainium 为 AI 工作负载提供 NVIDIA GPU 的替代方案,最多降低 50% 的成本。Azure 的 Cobalt 100 和 GCP 的 TPU 各自在特定领域有优势,但在定制芯片策略的全面性和生态系统成熟度方面 AWS 领先。