Amazon Elastic Inference

Servicio que agrega aceleradores GPU de bajo costo a instancias EC2 y SageMaker para optimizar el procesamiento de inferencia de machine learning

Descripción general

Amazon Elastic Inference es un servicio que permite adjuntar aceleradores de inferencia basados en GPU a instancias EC2 y endpoints de SageMaker a una fracción del costo de una instancia GPU completa. La inferencia de ML típicamente no requiere la misma potencia de GPU que el entrenamiento, por lo que Elastic Inference permite seleccionar exactamente la cantidad de aceleración GPU necesaria, evitando pagar por capacidad GPU no utilizada.

Tipos de acelerador y método de conexión

Elastic Inference ofrece varios tamaños de acelerador (eia2.medium, eia2.large, eia2.xlarge) con diferentes cantidades de memoria GPU y throughput de inferencia. Los aceleradores se adjuntan a instancias EC2 o endpoints de SageMaker a través de la red de AWS, apareciendo como un recurso GPU disponible para los frameworks de ML. La selección del tamaño del acelerador depende del tamaño del modelo y los requisitos de latencia: modelos pequeños (ResNet-50, BERT-base) funcionan bien con eia2.medium, mientras que modelos grandes (BERT-large, transformers con cientos de millones de parámetros) requieren eia2.xlarge. La ventaja principal es poder combinar una instancia CPU económica (c5.large) con un acelerador EI, obteniendo rendimiento de inferencia comparable a una instancia GPU completa (p3.2xlarge) a una fracción del costo.

Integración con frameworks y optimización de inferencia

Elastic Inference se integra con los principales frameworks de ML a través de versiones modificadas de las bibliotecas de runtime. TensorFlow, PyTorch y Apache MXNet tienen versiones compatibles con EI que redirigen automáticamente las operaciones de inferencia al acelerador adjunto. Para TensorFlow, se utiliza TensorFlow Serving con EI habilitado; para PyTorch, se usa el runtime de TorchScript con el backend EI. La optimización del modelo antes del despliegue mejora significativamente el rendimiento: la cuantización de FP32 a FP16 o INT8 reduce el tamaño del modelo y aumenta el throughput de inferencia. Los modelos compilados con Amazon SageMaker Neo están optimizados para el hardware de EI, proporcionando mejoras adicionales de rendimiento sin cambios en el código de la aplicación.

Optimización de costos y diseño por caso de uso

El principal beneficio de Elastic Inference es la reducción de costos para cargas de trabajo de inferencia. Una instancia p3.2xlarge cuesta aproximadamente 3,06 USD/hora, mientras que una c5.xlarge con eia2.medium cuesta aproximadamente 0,37 USD/hora, logrando un ahorro del 75-88% para muchos modelos. Sin embargo, EI tiene limitaciones: no soporta entrenamiento, la latencia de red añade overhead para modelos muy pequeños donde la inferencia CPU es suficiente, y no todos los operadores de todos los frameworks están acelerados. Los casos de uso ideales incluyen: endpoints de inferencia en producción con tráfico variable (combinado con Auto Scaling), procesamiento por lotes de inferencia donde el costo es prioritario sobre la latencia mínima, y entornos de desarrollo/pruebas donde se necesita validar modelos con aceleración GPU sin el costo de instancias GPU completas. Para cargas de trabajo de inferencia de muy alto throughput, las instancias Inf1/Inf2 con chips Inferentia de AWS pueden ser más costo-efectivas.

共有するXB!