Amazon Elastic Inference
以低成本为 EC2 和 SageMaker 实例添加 GPU 加速器,提高机器学习推理处理效率的服务
概述
Amazon Elastic Inference 允许将低成本的 GPU 推理加速器附加到 EC2 或 SageMaker 实例,无需使用完整的 GPU 实例即可加速机器学习推理。相比使用 p3 或 g4 等 GPU 实例,可以将推理成本降低最多 75%。
加速器类型与附加方式
Elastic Inference 提供三种加速器大小:eia2.medium(1 GB GPU 内存)、eia2.large(2 GB)和 eia2.xlarge(4 GB)。加速器通过网络附加到实例,不占用实例的 PCIe 插槽。选择加速器大小时需要考虑模型大小和推理批次大小。对于大多数计算机视觉和 NLP 模型,eia2.medium 或 eia2.large 即可满足需求。
框架集成与推理优化
Elastic Inference 支持 TensorFlow、PyTorch 和 Apache MXNet 框架。使用时需要安装对应的 EI 版本运行时(如 tensorflow-serving-ei)。模型加载后,推理计算自动卸载到附加的加速器上,CPU 处理预处理和后处理。对于 TensorFlow,支持 SavedModel 格式;对于 PyTorch,需要使用 TorchScript 格式。推理延迟取决于模型复杂度和加速器大小。
成本优化与用例设计
Elastic Inference 的核心价值是将 GPU 成本与实例成本解耦。传统方式下,即使推理只需要少量 GPU 算力,也必须使用完整的 GPU 实例。EI 允许选择适合 CPU 工作负载的实例类型,再附加恰好满足推理需求的加速器。适合的场景:推理请求间歇性到达(非持续满载)、模型较小不需要完整 GPU、需要在多个实例上分布式推理。注意:对于持续高吞吐量的推理工作负载,专用 GPU 实例(如 Inf1/Inf2)可能更具性价比。