高性能计算工程师

主要职责:

1、部署作业调度系统(如 Slurm),实现资源管理与任务调度

2、配置 MPI/OpenMP 并行计算环境,支持 CUDA 计算任务

3、协助用户运行科学计算软件(如 VASP、LAMMPS、GROMACS、OpenFOAM)

4、提供用户培训、作业脚本模板、FAQ 支持文档

能力要求:

1、熟悉 Slurm 作业调度系统的安装、配置与维护,掌握作业队列管理、GPU/CPU资源绑定、作业依赖管理、预留与抢占机制等高级用法

2、熟悉高性能计算环境中常见的软件构建方式(CMake、Makefile、Autotools)及依赖管理流程,具备维护稳定 HPC 软件栈的能力

3、精通 Docker 容器化技术,能构建具备 MPI/CUDA 支持的高性能镜像,具备基础 Singularity 镜像封装经验

4、有较强的编译调试能力,能根据实际 CPU/GPU 架构编译优化科学软件,熟悉 Intel MKL、OpenBLAS、cuBLAS、cuFFT 等高性能数值库的使用

5、熟悉常见 HPC 性能测试工具与方法,包括:

A、HPL (High Performance Linpack)

B、STREAM:测试内存带宽

C、HPCG:综合评估计算/通信/存储能力

6、熟悉网络层性能测试工具,能够使用:

A、osu_latency:测试 MPI 点对点通信延迟

B、osu_bw:评估带宽性能

C、IMB pingpong:测试不同消息大小下的通信时延与吞吐

7、具备在 NVIDIA GPU 环境下部署科学软件的经验,能完成 GROMACS、LAMMPS、VASP、NAMD、AMBER 等程序的 GPU 加速编译与调优,掌握:

8、对 Infiniband/RoCE 网络通信瓶颈、通信拓扑有基本认知,能在多节点环境下进行性能瓶颈分析并提出调优建议

公司地点:上海虹口区骏丰国际财富广场1708室

公司简介:

职位发布者:邵先生

赛尔网络有限公司

融资阶段:

公司规模:1000~9999人

相似职位: