AI高性能计算工程师

岗位职责:

1. 负责图像、视频、自然语言处理等AI模型的云端部署架构设计与全流程优化,支撑模型从研发到规模化落地的高效迭代

2. 主导单卡、多卡及分布式集群环境下的推理部署方案设计与实现

3. 基于 vLLM、SGLang、TensorRT 等主流推理框架,结合模型特性(如时序建模、多模态融合)进行定制化扩展与性能调优,提升推理吞吐量与响应速度

5. 深入分析 GPU 硬件架构特性(如 Tensor Core、显存带宽、PCIe 通信),设计高性能算子与显存调度策略

6. 与算法研发团队紧密协作,将算法特性转化为部署优化方案,解决分布式训练 / 推理中的性能瓶颈

任职要求:

1. 计算机、人工智能、电子信息等相关专业,本科及以上学历,3 年以上AI模型部署或高性能计算相关经验

2. 熟悉 Linux 开发环境,精通 Python/C++ 编程,具备扎实的编程基础和系统设计能力,能独立完成部署工具或模块开发

3. 深入理解 GPU 架构原理(NVIDIA A/H 系列、AMD MI 系列等),掌握 CUDA/ROCm 编程,具备 GPU 内核优化经验(如 PTX 指令调优、显存带宽优化、算子融合等)

4. 熟悉主流分布式训练框架(DeepSpeed、Megatron-LM 等)

5. 精通 vLLM、SGLang、TensorRT 等推理框架,有将大模型推理框架适配长序列、多模态模型的经验,能优化推理引擎的调度策略

6. 具备一定的算法原理理解能力,能理解扩散模型、注意力机制等AI算法的计算逻辑,针对性设计部署优化方案

7. 具备良好的问题分析与解决能力,能通过性能监控工具定位显存溢出、计算卡顿等问题,输出结构化优化方案

8. 有强烈的技术热情和责任感,具备良好的团队协作与跨团队沟通能力

加分项

1. 具备多卡集群推理部署经验,解决过大模型(10B + 参数)的显存调度、负载均衡问题者

3. 有自定义算子开发经验

4. 参与过 vLLM、TensorRT 等开源推理框架贡献,或有 DeepSpeed 训练加速实战经验者

公司地点:深圳宝安区前海人寿金融中心T2栋25楼

公司简介:

职位发布者:范女士

深圳软牛科技集团股份有限公司

融资阶段:

公司规模:

相似职位: