工作职责:
负责深度学习模型的封装与工程化,开发高效、稳定的API接口,确保模型在生产环境中的高可用性和可扩展性。
与运维团队协作,将模型部署到集群环境,支持大规模并发调用,确保系统的性能和可靠性。
优化深度学习模型的推理性能,包括模型压缩、剪枝、量化等技术,降低延迟,提升QPS(每秒查询率)。
探索并利用消费级显卡(如NVIDIA RTX系列)进行深度学习模型的多卡并行训练与推理优化,提升性价比和硬件资源利用率。
参与推理平台的建设,构建通用的推理加速优化工具,提升模型部署和服务化的效率。
维护模型推理优化相关的日常流程,提供技术支持,解决业务方在模型推理过程中的问题。跟踪深度学习领域的最新技术发展,评估新技术的可行性,并应用于实际项目中。
编写清晰、详细的技术文档,确保开发过程的规范性和可追溯性。
任职要求:
计算机科学、人工智能、电子工程或相关专业本科及以上学历。
至少5年以上软件开发经验,具有扎实的编程基础和良好的编码习惯。
至少2年深度学习项目经验,熟悉主流深度学习框架,如TensorFlow、PyTorch等。
精通Python和C/C++语言,具备良好的代码能力和工程实现经验。
熟悉Linux开发环境,了解常用的设计模式和数据结构,编码习惯良好。
熟悉模型推理优化技术,包括模型压缩、剪枝、量化、融合等方法。
在消费级显卡上有多卡并行训练或推理优化经验,能够高效利用硬件资源实现深度学习模型性能提升。
具备良好的团队合作精神和沟通能力,积极主动,学习能力强。
具有较强的分析问题和解决问题的能力,能够在压力下高效工作。
加分项:
有大型分布式系统或集群环境下的开发和优化经验。熟悉容器化技术,如Docker、Kubernetes等。有参与开源项目或在顶级会议发表论文的经历。