职位描述
- 负责大语言模型、多模态大模型、图像生成、视频生成、语音合成模型的云上迁移、部署和优化;
- 根据客户反馈问题,持续推动推理系统稳定性、性能优化及产品化落地;
- 根据多租户多场景等多样式推理需求,进行推理系统端到端性能优化,包含网关、缓存、智能路由、异步并发等技术,以满足不同场景下的SLA;
- 搭建推理系统监控和数据分析平台,实时追踪用户请求及模型性能指标,实现快速问题定位与解决方案;
- 支持智能体开发平台以及开源生态应用组件、场景化应用的集成开发和落地。
职位要求
- 计算机、人工智能相关专业本科及以上学历;
- 熟悉Java/Python语言,熟悉数据库、缓存、消息中间件、智能系统调度等分布式系统技术;
- 具备大模型推理部署和优化经验,熟悉PyTorch深度学习框架,掌握 vLLM、SGLang 等推理引擎,熟悉 PD分离、KV Cache、MTP等技术和架构;
- 具备优秀的问题排查、故障排除能力,具备优秀的系统级数据分析能力,并高效协同内部产研团队有效解决问题;
- 具备大模型分布式推理系统开发和部署经验,熟悉 Kubernetes、Docker 等容器化技术,熟悉GPU虚拟化和集群管理技术;
- 有智能体平台和应用设计、开发和优化经验,并根据业务场景设计大模型基础架构和框架;
- 具备大模型推理系统的SRE、运维工具开发、客户技术服务相关工作。