AWS ParallelCluster のアイコン

AWS ParallelCluster 专业2019年〜

在 AWS 上构建和管理 HPC(高性能计算)集群的开源工具

它能做什么

AWS ParallelCluster 是一款在 AWS 上自动构建 HPC 集群的开源集群管理工具。通过一个配置文件即可构建 Slurm 作业调度器、共享文件系统(EFSFSx for Lustre)和计算节点的自动扩缩容。计算节点根据作业提交量自动增减。

使用场景

用于科学技术计算(流体力学、分子动力学)、基因组分析、气象模拟、金融风险计算和机器学习训练。

日常类比

可以比作租用超级计算机。需要时租用所需数量的计算机(节点)执行计算,完成后归还。计算机数量根据计算量自动增减。

什么是 ParallelCluster

AWS ParallelCluster 是一款自动化 HPC 集群构建的工具。通过 YAML 配置文件定义头节点、计算节点、存储和网络,使用 pcluster create-cluster 命令作为 CloudFormation 堆栈部署。通过 Slurm 提交作业后,计算节点会根据队列自动启动。

扩缩容与存储

ParallelCluster 根据作业队列中的待处理作业数自动扩缩计算节点。利用 Spot 实例可以将计算成本降低最多 90%。共享存储可从 FSx for Lustre(高吞吐量)、EFS(通用)、EBS(头节点)中选择。还可以通过 EFA(Elastic Fabric Adapter)加速 MPI 通信。 从基础到应用,可通过参考书籍(Amazon)系统学习。

开始使用

通过 pip 安装 pcluster CLI,创建 YAML 配置文件。使用 pcluster create-cluster 创建集群,通过 SSH 连接到头节点。使用 Slurm 的 sbatch 命令提交作业后,计算节点会自动启动并执行作业。

注意事项

  • ParallelCluster 本身免费,但 EC2 实例、EBS、FSx 等底层资源会产生费用
  • Spot 实例可能被中断,对于关键作业建议使用按需实例或混合配置
共有するXB!