工作内容:
1. 负责生成式大模型(LLM)预训练算法的训练、优化、精调、对齐等技术研究,涉及语言大模型、多模态大模型。
2. 负责大模型技术和应用的研究与落地,如智能问答、报告生成、检索增强、知识增强、函数调用等。
3. 负责大模型基于GPU的并行多机多卡训练、高性能模型推理,推进分布式训练中的计算和通信优化等。
4. 负责大模型前沿技术研究,通用类和垂类预训练模型研发及效果持续优化。
5. 负责领域技术洞察和预研,结合业务对现有系统进行分析,识别技术瓶颈,主动优化,牵引架构持续演进,构建持续的架构竞争力。
6. 参与撰写技术文档和学术论文,分享和传播技术成果。
职位要求:
1. 硕士及以上学历,985/211院校毕业优先。计算机信息技术和知识工程相关专业,熟练掌握深度学习、计算机视觉、自然语言处理等领域的专业知识。
2. 熟悉Transformer、BERT、GPT系列、T5、PaLM等模型,对大模型的训练数据标注和处理及训练技术有深入理解。
3. 熟悉Pytorch/Tensorflow深度学习框架,至少掌握Python或C++其中一种编程语言。
4. 了解常见的强化学习算法原理(如DQN、DDPG、A3C、PPO等),有相关训练和开发经验者优先。
5. 曾在AI、CV、NLP顶级会议(如:NIPS、AAAI、CVPR、ACL等)发表论文者优先。