岗位职责:
1. 负责图像、视频、自然语言处理等AI模型的云端部署架构设计与全流程优化,支撑模型从研发到规模化落地的高效迭代
2. 主导单卡、多卡及分布式集群环境下的推理部署方案设计与实现
3. 基于 vLLM、SGLang、TensorRT 等主流推理框架,结合模型特性(如时序建模、多模态融合)进行定制化扩展与性能调优,提升推理吞吐量与响应速度
5. 深入分析 GPU 硬件架构特性(如 Tensor Core、显存带宽、PCIe 通信),设计高性能算子与显存调度策略
6. 与算法研发团队紧密协作,将算法特性转化为部署优化方案,解决分布式训练 / 推理中的性能瓶颈
任职要求:
1. 计算机、人工智能、电子信息等相关专业,本科及以上学历,3 年以上AI模型部署或高性能计算相关经验
2. 熟悉 Linux 开发环境,精通 Python/C++ 编程,具备扎实的编程基础和系统设计能力,能独立完成部署工具或模块开发
3. 深入理解 GPU 架构原理(NVIDIA A/H 系列、AMD MI 系列等),掌握 CUDA/ROCm 编程,具备 GPU 内核优化经验(如 PTX 指令调优、显存带宽优化、算子融合等)
4. 熟悉主流分布式训练框架(DeepSpeed、Megatron-LM 等)
5. 精通 vLLM、SGLang、TensorRT 等推理框架,有将大模型推理框架适配长序列、多模态模型的经验,能优化推理引擎的调度策略
6. 具备一定的算法原理理解能力,能理解扩散模型、注意力机制等AI算法的计算逻辑,针对性设计部署优化方案
7. 具备良好的问题分析与解决能力,能通过性能监控工具定位显存溢出、计算卡顿等问题,输出结构化优化方案
8. 有强烈的技术热情和责任感,具备良好的团队协作与跨团队沟通能力
加分项
1. 具备多卡集群推理部署经验,解决过大模型(10B + 参数)的显存调度、负载均衡问题者
3. 有自定义算子开发经验
4. 参与过 vLLM、TensorRT 等开源推理框架贡献,或有 DeepSpeed 训练加速实战经验者