Question 1

Amazon Elastic Inference とは何ですか？

Accepted Answer

Amazon Elastic Inference 允许将低成本的 GPU 推理加速器附加到 EC2 或 SageMaker 实例，无需使用完整的 GPU 实例即可加速机器学习推理。相比使用 p3 或 g4 等 GPU 实例，可以将推理成本降低最多 75%。

Question 2

加速器类型与附加方式

Accepted Answer

Elastic Inference 提供三种加速器大小：eia2.medium（1 GB GPU 内存）、eia2.large（2 GB）和 eia2.xlarge（4 GB）。加速器通过网络附加到实例，不占用实例的 PCIe 插槽。选择加速器大小时需要考虑模型大小和推理批次大小。对于大多数计算机视觉和 NLP 模型，eia2.medium 或 eia2.large 即可满足需求。

Question 3

框架集成与推理优化

Accepted Answer

Elastic Inference 支持 TensorFlow、PyTorch 和 Apache MXNet 框架。使用时需要安装对应的 EI 版本运行时（如 tensorflow-serving-ei）。模型加载后，推理计算自动卸载到附加的加速器上，CPU 处理预处理和后处理。对于 TensorFlow，支持 SavedModel 格式；对于 PyTorch，需要使用 TorchScript 格式。推理延迟取决于模型复杂度和加速器大小。

Question 4

成本优化与用例设计

Accepted Answer

Elastic Inference 的核心价值是将 GPU 成本与实例成本解耦。传统方式下，即使推理只需要少量 GPU 算力，也必须使用完整的 GPU 实例。EI 允许选择适合 CPU 工作负载的实例类型，再附加恰好满足推理需求的加速器。适合的场景：推理请求间歇性到达（非持续满载）、模型较小不需要完整 GPU、需要在多个实例上分布式推理。注意：对于持续高吞吐量的推理工作负载，专用 GPU 实例（如 Inf1/Inf2）可能更具性价比。

概述

加速器类型与附加方式

框架集成与推理优化

成本优化与用例设计

相关术语

相关服务

相关文章

相似的术语与文章