强化学习算法研究员

职位描述

-开展强化学习在大模型上的探索工作,通过前沿研究和技术创新,优化RL训练Pipeline,提高模型的复杂推理和通用指令跟随能力。 -开展强化学习在复杂Agent任务(例如 Computer Use, Deep Research,Al IDE等)上的落地探索,拓宽大模型的应用边界。 -对学术前沿保持跟进,鼓励将研究工作开源,并撰写论文或技术报告,促进团队内部以及与外部的技术交流。

职位要求

-跟进RLHF/RFT主流研究方向,熟悉RLHF的 pepeline,了解DPO/PPO/GRPO等常见算法的细节与差异,对reasoning model的最新进展有跟进,优先考虑有相关训练算法训练与优化经验的同学。

-有扎实的机器学习、深度学习、强化学习基础,能对训练中的现象进行合理分析,客观给出结论,并针对训练中的问题提出合理的新思路。

-熟悉大模型和RLHF的常见训练框架,例如 Deepspeed、Megatron、Verl、Openrlhf等主流框架,编程功底扎实,能快速且正确实现自己的实验需求。

加分点:

-在NeurlPS/ICML/ICLR/CVPR等国际会议上发表过相关论文者优先;

-有ACM-ICPC,NOI/OI参赛经验者优先; -有大规模RL落地经验者优先;

公司地点:北京东城区明阳国际中心c

公司简介:

昆仑天工是昆仑万维科技股份有限公司(以下简称"昆仑万维")下属的子板块。昆仑万维深耕海外市场十余载,业务覆盖AGI与AIGC、信息分发、社交娱乐、游戏及投资等多个领域,并于2015年登录科创版,旗下包括AGI与AIGC、海外信息分发与元宇宙、科技股权投资等三大业务板块,业务和子公司已先后拓展至美国、俄罗斯、日本、韩国、印度,以及欧洲、非洲、东南亚等地的其他国家。

昆仑天工作为昆仑万维的重要子板块,主营AGI与AIGC业务,践行昆仑万维"All in AGI与AIGC长期发展战略",深耕人工智能赛道,昆仑天工致力持续发展大模型技术,同时全身心投入开源社区建设。

职位发布者:林女士

昆仑天工科技有限公司

融资阶段:

公司规模:100~499人

相似职位: