蚂蚁国际-大模型开发-推理优化-杭州急招

● 负责大语言模型推理引擎的优化与定制，提升模型服务性能和资源利用率

● 设计和实现高性能推理服务架构，支持多种部署场景和服务形态

● 基于 vLLM、SGLang 等框架进行二次开发，实现定制化的推理优化方案

● 开发和维护模型量化、并行计算等性能优化模块

● 负责推理服务集群的管理与监控，确保服务质量和稳定性

● 参与模型训练流程优化，协助提升模型迭代效率

职位描述

● 计算机科学、人工智能或相关专业本科及以上学历

● 扎实的 Python/C++ 编程能力，熟悉 CUDA 编程优先

● 深入理解 vLLM、SGLang、TensorRT-LLM 等推理加速框架

● 熟悉量化、KV Cache 等优化技术，对新型推理加速技术如FlashAttention、PagedAttention 等有研究

● 熟悉分布式系统设计，了解大规模推理服务架构

● 熟悉 Docker、Kubernetes 等容器化技术，有集群管理经验

● 具备良好的性能分析和优化能力，以及问题排查能力

● 有 LLM 推理系统开发经验或LLM训练和微调经验者优先

● 有相关开源项目贡献经验者优先

公司地点：杭州西湖区黄龙万科中心E座黄龙万科中心E座