AWS ParallelCluster 专业2019年〜
在 AWS 上构建和管理 HPC(高性能计算)集群的开源工具
它能做什么
AWS ParallelCluster 是一款在 AWS 上自动构建 HPC 集群的开源集群管理工具。通过一个配置文件即可构建 Slurm 作业调度器、共享文件系统(EFS、FSx for Lustre)和计算节点的自动扩缩容。计算节点根据作业提交量自动增减。
使用场景
用于科学技术计算(流体力学、分子动力学)、基因组分析、气象模拟、金融风险计算和机器学习训练。
日常类比
可以比作租用超级计算机。需要时租用所需数量的计算机(节点)执行计算,完成后归还。计算机数量根据计算量自动增减。
什么是 ParallelCluster
AWS ParallelCluster 是一款自动化 HPC 集群构建的工具。通过 YAML 配置文件定义头节点、计算节点、存储和网络,使用 pcluster create-cluster 命令作为 CloudFormation 堆栈部署。通过 Slurm 提交作业后,计算节点会根据队列自动启动。
扩缩容与存储
ParallelCluster 根据作业队列中的待处理作业数自动扩缩计算节点。利用 Spot 实例可以将计算成本降低最多 90%。共享存储可从 FSx for Lustre(高吞吐量)、EFS(通用)、EBS(头节点)中选择。还可以通过 EFA(Elastic Fabric Adapter)加速 MPI 通信。 从基础到应用,可通过参考书籍(Amazon)系统学习。
开始使用
通过 pip 安装 pcluster CLI,创建 YAML 配置文件。使用 pcluster create-cluster 创建集群,通过 SSH 连接到头节点。使用 Slurm 的 sbatch 命令提交作业后,计算节点会自动启动并执行作业。
注意事项
- ParallelCluster 本身免费,但 EC2 实例、EBS、FSx 等底层资源会产生费用
- Spot 实例可能被中断,对于关键作业建议使用按需实例或混合配置