工作职责
1.PyTorch/Paddle模型适配与性能调优;
2.多机多卡大模型训练部署与性能调优;
3.vllm以及推理引擎部署与性能调优;
4.开发高性能算子;
5.对社区CUDA仓库进行musify;
6.提供远程或现场的技术支持,解决客户在使用机器学习平台时遇到的技术问题;
7.编写和维护技术文档,包括故障排除指南、用户手册和最佳实践;
8.调研最新的机器学习技术和平台功能;
9.深度参与研发产品特性开发,为研发产品支持新特性;
任职资格
基本要求:
1.积极乐观,责任心强,工作认真细致,具有良好的团队沟通与协作能力。
2. 计算机科学、电子工程或相关领域的本科及以上学历。
3. 熟悉机器学习和深度学习算法及其在实际应用中的部署。
4. 至少有一种机器学习框架使用或者开发经验,如TensorFlow、PyTorch、PaddlePadde、Megatron-LM、Colossal-ai、DeepSpeed、vLLM或推理引擎。
5.熟悉至少一种编程语言,如Python、C++。
6. 良好的逻辑思维能力,精通计算机数据结构和算法;
7. 良好的英语读写能力。
优先考虑条件:
● 2年及以上在技术支持或相关领域的工作经验。
● 熟悉CUDA编程。
● 熟悉Docker、Kubernetes等容器化技术。