La estructura por capas de los servicios AI/ML de AWS - La flexibilidad que ofrecen las 3 capas de SageMaker, Bedrock y servicios tipo API
Organizamos los servicios AI/ML de AWS en 3 capas: SageMaker (control total), Bedrock (IA generativa gestionada) y Rekognition, etc. (tipo API). A través de la comparación con GCP Vertex AI y Azure OpenAI Service, explicamos la flexibilidad de AWS incluyendo la integración con silicio personalizado.
El concepto de "capas" requerido en los servicios AI/ML
La adopción de AI/ML varía enormemente en madurez según la organización. Algunas organizaciones tienen científicos de datos que construyen modelos desde cero, mientras que otras solo necesitan llamar a modelos preentrenados a través de API. Con la llegada de la IA generativa, la necesidad intermedia de personalizar y utilizar modelos fundacionales se ha expandido rápidamente. AWS aborda estas diversas necesidades con una estructura de 3 capas: SageMaker con control total, Bedrock como IA generativa gestionada, y Rekognition/Comprehend/Transcribe, etc. como servicios tipo API. Cada capa es independiente pero interoperable, permitiendo a las organizaciones comenzar en la capa apropiada según su madurez en IA y migrar gradualmente hacia un uso más avanzado.
SageMaker - Plataforma ML de extremo a extremo con control total
SageMaker es una plataforma que cubre todo el flujo de trabajo de ML. Desde el preprocesamiento de datos (Data Wrangler, Processing), el entrenamiento de modelos (Training, HyperParameter Tuning), el despliegue (Endpoints, Serverless Inference), hasta el monitoreo (Model Monitor), todo se ejecuta en un entorno consistente. SageMaker Studio proporciona un entorno de desarrollo integrado basado en navegador con notebooks Jupyter, gestión de experimentos, registro de modelos y visualización de pipelines. La fortaleza de SageMaker radica en su profunda integración con la infraestructura de cómputo de AWS. Los trabajos de entrenamiento pueden seleccionar instancias GPU (P5, P4d) o los chips Trainium diseñados por AWS, y para la inferencia, los chips Inferentia permiten una inferencia con alta eficiencia de costos. Las bibliotecas de entrenamiento distribuido (SageMaker Distributed Training) también están integradas, optimizando el entrenamiento de modelos a gran escala.
Bedrock - Estrategia multi-modelo de IA generativa gestionada
Bedrock es una plataforma que ofrece modelos fundacionales de IA generativa como servicio gestionado. Claude de Anthropic, Llama de Meta, Stable Diffusion de Stability AI, Nova propio de Amazon, entre otros, pueden utilizarse a través de una API unificada de múltiples proveedores. Este enfoque "multi-modelo" es el principal punto de diferenciación con Azure OpenAI Service. Azure OpenAI Service se especializa en modelos de OpenAI, y aunque la calidad de GPT-4 y DALL-E es alta, las opciones de proveedores de modelos son limitadas. Con Bedrock se puede seleccionar el modelo óptimo según el caso de uso, evitando el lock-in con un proveedor específico. La construcción de RAG (Generación Aumentada por Recuperación) con Knowledge Bases, el filtrado de contenido con Guardrails y la personalización de modelos con Fine-tuning también se proporcionan como funciones integradas de Bedrock.
Servicios tipo API - Incorporar IA solo escribiendo código
La tercera capa de los servicios de IA de AWS es un conjunto de servicios tipo API especializados en tareas específicas. Rekognition (análisis de imágenes y video), Comprehend (procesamiento de lenguaje natural), Transcribe (reconocimiento de voz), Translate (traducción), Polly (síntesis de voz), Textract (análisis de documentos), Personalize (recomendaciones), entre otros, con más de 10 servicios disponibles. Estos servicios no requieren ningún conocimiento especializado en ML y permiten incorporar funciones de IA en las aplicaciones simplemente llamando a una API REST. GCP también ofrece servicios tipo API como Vision AI, Natural Language AI y Speech-to-Text, pero AWS tiene mayor variedad de servicios, con servicios profundamente optimizados para casos de uso específicos como el análisis de formularios de Textract o las recomendaciones en tiempo real de Personalize. Los servicios tipo API no han perdido valor tras la llegada de la IA generativa, y hay muchos escenarios donde son más ventajosos que los LLM de propósito general en términos de latencia y costo.
Integración con silicio personalizado - Inferentia y Trainium
Al hablar de la estrategia AI/ML de AWS, es imprescindible mencionar el silicio personalizado. Inferentia para inferencia y Trainium para entrenamiento son chips especializados en IA diseñados por AWS, con ventajas en relación costo-rendimiento comparados con las GPU de NVIDIA. Se afirma que Inferentia2 logra una reducción de costos de hasta el 40% en la inferencia de modelos de lenguaje de gran escala en comparación con instancias GPU equivalentes. Trainium2 está optimizado para el entrenamiento distribuido de modelos a gran escala y puede utilizarse de forma transparente desde SageMaker o EKS. Las TPU (Tensor Processing Unit) de GCP también tienen alto rendimiento como chips especializados en IA, pero las TPU solo están disponibles en el entorno cloud de GCP, con formas de uso limitadas. Azure actualmente no posee chips de IA propios y depende de las GPU de NVIDIA. Tener la opción de silicio personalizado representa una ventaja competitiva a largo plazo en la optimización de costos de cargas de trabajo de IA.
Patrones de uso de la estructura de 3 capas
La estructura de 3 capas AI/ML de AWS permite una adopción gradual según la madurez de la organización. En la etapa inicial de adopción de IA, se demuestra valor rápidamente con servicios tipo API; cuando avanza el uso de IA generativa, se migra a la personalización con Bedrock; y cuando se necesita desarrollar modelos propios, se introduce SageMaker, trazando así un camino de crecimiento. Las tres capas no son excluyentes y pueden combinarse dentro de la misma aplicación. Por ejemplo, es posible clasificar las consultas de usuarios con Comprehend, generar respuestas con el LLM de Bedrock, y evaluar la calidad de las respuestas con un modelo personalizado entrenado en SageMaker. Para patrones prácticos de uso del aprendizaje automático, los libros relacionados (Amazon) también son una referencia útil.
Resumen
Los servicios AI/ML de AWS proporcionan flexibilidad para organizaciones de cualquier nivel de madurez en IA mediante la estructura de 3 capas de SageMaker, Bedrock y servicios tipo API. Azure OpenAI Service se adelantó en el acceso a modelos de OpenAI, pero Bedrock tiene ventaja en diversidad de proveedores de modelos. Vertex AI de GCP es excelente como plataforma integrada, pero no alcanza a AWS en variedad y profundidad de servicios tipo API. Además, la existencia de silicio personalizado como Inferentia/Trainium se convierte en un factor de diferenciación a largo plazo en la optimización de costos de cargas de trabajo de IA. La adopción de AI/ML no avanza de un salto, sino que se profundiza gradualmente. AWS, con su estructura por capas que soporta ese crecimiento gradual, es una elección sólida como plataforma para la estrategia de IA.