岗位职责:
1. 参与基础大模型和端侧大模型的研发工作,包括架构设计、预训练、后训练等,端到端构建通用能力业界领先的大模型。
2. 负责大模型高阶能力(Coding、Agent等)的专项提升,打造模型长版特性。
3. 持续关注大模型最新研究,探索下一代大模型的架构和训练方法,做出有影响力的成果。
任职要求:
'1. 硕士及以上学历,计算机科学、人工智能等相关专业;
2. 熟悉深度学习框架(例如pytorch等),具备大模型和端侧大模型的算法开发经验,具备数据处理、模型架构设计、大规模训练等经验;
3.对大模型架构、训练、数据、系统优化中的某一方面有深入理解,
以下符合1条以上:
1) 能够提出创新性的大模型架构和端侧大模型架构,探索技术的下一跳。
2)熟练掌握强化学习(RL)和模型微调(SFT)等后训练技术,并可以提出创新的后训练方法。
3)对coding、math、agent等大模型高阶能力有深入思考
4)熟练掌握大模型预训练的Know How,可以快速诊断并修复问题,提升模型能力。
5)对预训练数据、后训练数据的生产、合成方法有深入理解
6)熟练模型训练/推理的系统优化方法,提升模型的实际训练、推理性能。
4有大模型/端侧大模型架构、训练、数据、系统优化等相关实战经验者优先;在NeurIPS/ICML/ICLR/ACL/EMNLP/CVPR/ICCV/TPAMI等AI顶级会议发表过相关论文者优先