职位描述:
1.负责推理引擎研发工作,优化模型推理性能,高吞吐低延迟支持推理服务;
2.与公司各算法部门深度合作,分析业务性能瓶颈和优化系统架构,实现极致性能;
职位要求:
1.本科及以上学历,计算机相关专业优先;
2.精通Python/C++等编程语言,熟悉常用设计模式;
3.具备良好的进取心、求知欲及团队合作精神;
4.具有Ray内核或者Ray相关框架应用经验值优先;
5.熟练掌握主流深度学习框架,例如tensorflow/pytorch;
6.熟悉主流推理服务框架优先,如Triton Inference Server/vllm/ray-llm;
7.有推理相关优化经验加分, 或有主流推理后端使用经验,例如ONNXRuntime/TensorRT;
8.有向量检索算法和框架使用经验加分,例如Faiss、Milvus;