AWS ParallelCluster Especializado2019年〜
Herramienta de código abierto para construir y gestionar clústeres HPC (Computación de Alto Rendimiento) en AWS
Qué hace
AWS ParallelCluster es una herramienta de gestión de clústeres de código abierto que construye automáticamente clústeres HPC en AWS. Configura el planificador de trabajos Slurm, sistemas de archivos compartidos (EFS, FSx for Lustre) y nodos de cómputo con auto-escalado desde un único archivo de configuración. Los nodos de cómputo escalan automáticamente según el volumen de trabajos enviados.
Casos de uso
Se utiliza para computación científica (dinámica de fluidos computacional, dinámica molecular), análisis genómico, simulación meteorológica, cálculo de riesgo financiero y entrenamiento de aprendizaje automático.
Analogía cotidiana
Es como un supercomputador de alquiler. Alquila tantos computadores (nodos) como necesite cuando los necesite, ejecuta sus cálculos y los devuelve cuando termina. El número de computadores escala automáticamente según la carga computacional.
¿Qué es ParallelCluster?
AWS ParallelCluster es una herramienta que automatiza la construcción de clústeres HPC. Define el nodo principal, nodos de cómputo, almacenamiento y red en un archivo de configuración YAML y lo despliega como un stack de CloudFormation con el comando `pcluster create-cluster`. Cuando envía trabajos a través de Slurm, los nodos de cómputo se lanzan automáticamente según la cola.
Escalado y almacenamiento
ParallelCluster auto-escala los nodos de cómputo según el número de trabajos pendientes en la cola. Usar instancias Spot puede reducir los costos de cómputo hasta un 90% en comparación con los precios bajo demanda. Las opciones de almacenamiento compartido incluyen FSx for Lustre (alto rendimiento), EFS (propósito general) y EBS (nodo principal). EFA (Elastic Fabric Adapter) también puede acelerar la comunicación MPI. Para aprender sistemáticamente desde lo básico hasta temas avanzados sobre escalado y almacenamiento, los libros de referencia en Amazon son un gran recurso.
Primeros pasos
Instale la CLI de pcluster a través de pip y cree un archivo de configuración YAML. Cree el clúster con `pcluster create-cluster` y conéctese por SSH al nodo principal. Envíe trabajos con el comando sbatch de Slurm, y los nodos de cómputo se lanzan automáticamente para ejecutarlos.
Aspectos a tener en cuenta
- ParallelCluster itself is a free open-source tool. Charges apply for AWS resources like EC2, EBS, and FSx
- Costs can be significantly reduced for workloads that can tolerate Spot Instance interruptions (checkpoint-capable)