1、近两年有深度学习Transformer技术的研发经验,有大模型的深度学习数据治理经验;
2、研究GPT算法:了解GPT算法的基础知识和理论对算法进行深入研究,不断优化算法的性能和效率;
3、应用机器学习、深度学习、自然语言处理等技术GPT、RLHF算法,搭建GPT训练框架。
任职要求:
1、本科或以上学历,计算机、数学、人工智能等相关专业优先,3年以上工作经验;
2、熟练使用Linux工作环境,熟悉Pvthon编程语言熟练掌握一个典型深度学习框架: TensorFlow、Pytorch等;
3、熟悉Transformer等开源训练架构,熟悉LORA或QLORA进行模型微调:
4、熟悉经典的深度学习模型 (CNN、LSTMAttention机制,Seg2Seg) 、损失函数、优化方法特征表示等,能够跟进并复现国际前沿工作;
5、对主流大模型 (例如GPT3/chatGPT/T5/PaLM/LLaMA/GLM等)的原理、性能、差异有深入理解;
6、具备多模态AIGC大模型训练经验者优先,譬如:GAN、Stable Diffusion、AutoRegressive等相关经验;
7、具备NLP大模型训练经验者优先,对包括不限于预训练、SFT、Peft、Megatron、deepspeed等有实践经验。