● 负责大语言模型推理引擎的优化与定制,提升模型服务性能和资源利用率
● 设计和实现高性能推理服务架构,支持多种部署场景和服务形态
● 基于 vLLM、SGLang 等框架进行二次开发,实现定制化的推理优化方案
● 开发和维护模型量化、并行计算等性能优化模块
● 负责推理服务集群的管理与监控,确保服务质量和稳定性
● 参与模型训练流程优化,协助提升模型迭代效率
职位描述
● 计算机科学、人工智能或相关专业本科及以上学历
● 扎实的 Python/C++ 编程能力,熟悉 CUDA 编程优先
● 深入理解 vLLM、SGLang、TensorRT-LLM 等推理加速框架
● 熟悉量化、KV Cache 等优化技术,对新型推理加速技术如FlashAttention、PagedAttention 等有研究
● 熟悉分布式系统设计,了解大规模推理服务架构
● 熟悉 Docker、Kubernetes 等容器化技术,有集群管理经验
● 具备良好的性能分析和优化能力,以及问题排查能力
● 有 LLM 推理系统开发经验或LLM训练和微调经验者优先
● 有相关开源项目贡献经验者优先