蚂蚁国际-大模型开发-推理优化-杭州急招

● 负责大语言模型推理引擎的优化与定制,提升模型服务性能和资源利用率

● 设计和实现高性能推理服务架构,支持多种部署场景和服务形态

● 基于 vLLM、SGLang 等框架进行二次开发,实现定制化的推理优化方案

● 开发和维护模型量化、并行计算等性能优化模块

● 负责推理服务集群的管理与监控,确保服务质量和稳定性

● 参与模型训练流程优化,协助提升模型迭代效率

职位描述

● 计算机科学、人工智能或相关专业本科及以上学历

● 扎实的 Python/C++ 编程能力,熟悉 CUDA 编程优先

● 深入理解 vLLM、SGLang、TensorRT-LLM 等推理加速框架

● 熟悉量化、KV Cache 等优化技术,对新型推理加速技术如FlashAttention、PagedAttention 等有研究

● 熟悉分布式系统设计,了解大规模推理服务架构

● 熟悉 Docker、Kubernetes 等容器化技术,有集群管理经验

● 具备良好的性能分析和优化能力,以及问题排查能力

● 有 LLM 推理系统开发经验或LLM训练和微调经验者优先

● 有相关开源项目贡献经验者优先

公司地点:杭州西湖区黄龙万科中心E座黄龙万科中心E座

公司简介:

职位发布者:曾女士

支付宝(杭州)数字服务技术有限公司

融资阶段:

公司规模:

相似职位: