岗位职责:
1、针对不同端侧设备的硬件特性(CPU、GPU、NPU等)进行模型适配;
2、对模型进行推理加速优化,包括但不限于模型量化、剪枝、高性能解码、token压缩等,提升模型端侧运行效率,同时降低模型端侧存储需求;
3、与端侧芯片原厂合作,针对特定硬件架构和推理引擎进行模型优化,以实现最佳性能;
4、跟踪最新的模型压缩、推理加速技术,评估在端侧部署中的可行性和效果,提升产品技术水平和竞争力。
岗位要求:
1、计算机科学相关专业,硕士及以上学历,具备较好的计算机通用算法基础;
2、有数值计算、最优化、代数、图论等理论基础;
3、有大语言模型压缩及推理优化经验,有实现深度学习相关业务算法的经验;
4、熟悉并行计算,熟悉C/C++/python/linux等工具及TensorFlow、PyTorch等深度学习框架;
5、在高性能计算方向发表过高水平论文、获得过相关赛事奖项者优先;
6、强烈的责任心和自我驱动能力及良好的沟通能力。