大模型推理加速算法专家

职责描述：

1.负责开发语言、多模态大模型的整体推理加速方案，追踪业界最新推理框架，持续完善推理加速性评测体系，动态追踪业界最新技术水平；

2.负责开发模型量化、剪枝、蒸馏、投机推理、稀疏推理、KV压缩、KV重算、PD分离等最新加速算子并完成框架适配，提高整体模型推理性能，打造推理加速竞争力；

3.负责开发高动态、高可用的模型服务架构，提供多实例智能负载均衡的高效率、高吞吐、高并发稳定服务；

4.结合业务，开发针对RAG、超长文本等场景的低时延、高速率推理方案，实现推理性能和成本的均衡优化；

任职资格：

1．人工智能、计算机或相关领域硕士及以上学历，有大语言模型、多模态理解及生成模型优化经验；

2．熟练使用vllm、sglang等推理加速框架，熟悉Transformer架构特性，精通INT8/INT4/FP8量化、Weight/Activation剪枝、KV缓存优化等技术；

3．具备自我驱动力、创新能力、团队协作能力、沟通能力和抗压能力；

4．具备跟踪最新的研究成果和技术趋势，并迅速转化为生成力的能力；

3.具备异构平台推理加速优化或产业化经验者优先；

4.有CUDA编程经验，能够在CUDA层面进行优化设计与实现的，优先。

5.熟悉ONNX、OpenVino、TensorRT、NCNN等推理或加速框架者优先。

6.在相关领域顶级会议发表高水平论文，或主导过业界重要语言/多模态模型优化项目者优先。

公司地点：杭州滨江区浙大城市学院滨江创新中心6楼