AI高性能计算工程师

岗位职责：

1. 负责图像、视频、自然语言处理等AI模型的云端部署架构设计与全流程优化，支撑模型从研发到规模化落地的高效迭代

2. 主导单卡、多卡及分布式集群环境下的推理部署方案设计与实现

3. 基于 vLLM、SGLang、TensorRT 等主流推理框架，结合模型特性（如时序建模、多模态融合）进行定制化扩展与性能调优，提升推理吞吐量与响应速度

5. 深入分析 GPU 硬件架构特性（如 Tensor Core、显存带宽、PCIe 通信），设计高性能算子与显存调度策略

6. 与算法研发团队紧密协作，将算法特性转化为部署优化方案，解决分布式训练 / 推理中的性能瓶颈

任职要求：

1. 计算机、人工智能、电子信息等相关专业，本科及以上学历，3 年以上AI模型部署或高性能计算相关经验

2. 熟悉 Linux 开发环境，精通 Python/C++ 编程，具备扎实的编程基础和系统设计能力，能独立完成部署工具或模块开发

3. 深入理解 GPU 架构原理（NVIDIA A/H 系列、AMD MI 系列等），掌握 CUDA/ROCm 编程，具备 GPU 内核优化经验（如 PTX 指令调优、显存带宽优化、算子融合等）

4. 熟悉主流分布式训练框架（DeepSpeed、Megatron-LM 等）

5. 精通 vLLM、SGLang、TensorRT 等推理框架，有将大模型推理框架适配长序列、多模态模型的经验，能优化推理引擎的调度策略

6. 具备一定的算法原理理解能力，能理解扩散模型、注意力机制等AI算法的计算逻辑，针对性设计部署优化方案

7. 具备良好的问题分析与解决能力，能通过性能监控工具定位显存溢出、计算卡顿等问题，输出结构化优化方案

8. 有强烈的技术热情和责任感，具备良好的团队协作与跨团队沟通能力

加分项

1. 具备多卡集群推理部署经验，解决过大模型（10B + 参数）的显存调度、负载均衡问题者

3. 有自定义算子开发经验

4. 参与过 vLLM、TensorRT 等开源推理框架贡献，或有 DeepSpeed 训练加速实战经验者

公司地点：深圳宝安区前海人寿金融中心T2栋25楼