职责描述:
1.负责开发语言、多模态大模型的整体推理加速方案,追踪业界最新推理框架,持续完善推理加速性评测体系,动态追踪业界最新技术水平;
2.负责开发模型量化、剪枝、蒸馏、投机推理、稀疏推理、KV压缩、KV重算、PD分离等最新加速算子并完成框架适配,提高整体模型推理性能,打造推理加速竞争力;
3.负责开发高动态、高可用的模型服务架构, 提供多实例智能负载均衡的高效率、 高吞吐、高并发稳定服务;
4.结合业务,开发针对RAG、超长文本等场景的低时延、高速率推理方案,实现推理性能和成本的均衡优化;
任职资格:
1.人工智能、计算机或相关领域硕士及以上学历,有大语言模型、多模态理解及生成模型优化经验;
2.熟练使用vllm、sglang等推理加速框架,熟悉Transformer架构特性,精通INT8/INT4/FP8量化、Weight/Activation剪枝、KV缓存优化等技术;
3.具备自我驱动力、创新能力、团队协作能力、沟通能力和抗压能力;
4.具备跟踪最新的研究成果和技术趋势,并迅速转化为生成力的能力;
3.具备异构平台推理加速优化或产业化经验者优先;
4.有CUDA编程经验,能够在CUDA层面进行优化设计与实现的,优先。
5.熟悉ONNX、OpenVino、TensorRT、NCNN等推理或加速框架者优先。
6.在相关领域顶级会议发表高水平论文,或主导过业界重要语言/多模态模型优化项目者优先。