主要职责:
1、部署作业调度系统(如 Slurm),实现资源管理与任务调度
2、配置 MPI/OpenMP 并行计算环境,支持 CUDA 计算任务
3、协助用户运行科学计算软件(如 VASP、LAMMPS、GROMACS、OpenFOAM)
4、提供用户培训、作业脚本模板、FAQ 支持文档
能力要求:
1、熟悉 Slurm 作业调度系统的安装、配置与维护,掌握作业队列管理、GPU/CPU资源绑定、作业依赖管理、预留与抢占机制等高级用法
2、熟悉高性能计算环境中常见的软件构建方式(CMake、Makefile、Autotools)及依赖管理流程,具备维护稳定 HPC 软件栈的能力
3、精通 Docker 容器化技术,能构建具备 MPI/CUDA 支持的高性能镜像,具备基础 Singularity 镜像封装经验
4、有较强的编译调试能力,能根据实际 CPU/GPU 架构编译优化科学软件,熟悉 Intel MKL、OpenBLAS、cuBLAS、cuFFT 等高性能数值库的使用
5、熟悉常见 HPC 性能测试工具与方法,包括:
A、HPL (High Performance Linpack)
B、STREAM:测试内存带宽
C、HPCG:综合评估计算/通信/存储能力
6、熟悉网络层性能测试工具,能够使用:
A、osu_latency:测试 MPI 点对点通信延迟
B、osu_bw:评估带宽性能
C、IMB pingpong:测试不同消息大小下的通信时延与吞吐
7、具备在 NVIDIA GPU 环境下部署科学软件的经验,能完成 GROMACS、LAMMPS、VASP、NAMD、AMBER 等程序的 GPU 加速编译与调优,掌握:
8、对 Infiniband/RoCE 网络通信瓶颈、通信拓扑有基本认知,能在多节点环境下进行性能瓶颈分析并提出调优建议