强化学习算法研究员

职位描述

-开展强化学习在大模型上的探索工作，通过前沿研究和技术创新，优化RL训练Pipeline，提高模型的复杂推理和通用指令跟随能力。 -开展强化学习在复杂Agent任务(例如 Computer Use， Deep Research，Al IDE等)上的落地探索，拓宽大模型的应用边界。 -对学术前沿保持跟进，鼓励将研究工作开源，并撰写论文或技术报告，促进团队内部以及与外部的技术交流。

职位要求

-跟进RLHF/RFT主流研究方向，熟悉RLHF的 pepeline，了解DPO/PPO/GRPO等常见算法的细节与差异，对reasoning model的最新进展有跟进，优先考虑有相关训练算法训练与优化经验的同学。

-有扎实的机器学习、深度学习、强化学习基础，能对训练中的现象进行合理分析，客观给出结论，并针对训练中的问题提出合理的新思路。

-熟悉大模型和RLHF的常见训练框架，例如 Deepspeed、Megatron、Verl、Openrlhf等主流框架，编程功底扎实，能快速且正确实现自己的实验需求。

加分点:

-在NeurlPS/ICML/ICLR/CVPR等国际会议上发表过相关论文者优先;

-有ACM-ICPC，NOI/OI参赛经验者优先; -有大规模RL落地经验者优先;

公司地点：北京东城区明阳国际中心c

公司简介：

昆仑天工是昆仑万维科技股份有限公司(以下简称"昆仑万维")下属的子板块。昆仑万维深耕海外市场十余载，业务覆盖AGI与AIGC、信息分发、社交娱乐、游戏及投资等多个领域，并于2015年登录科创版，旗下包括AGI与AIGC、海外信息分发与元宇宙、科技股权投资等三大业务板块，业务和子公司已先后拓展至美国、俄罗斯、日本、韩国、印度，以及欧洲、非洲、东南亚等地的其他国家。

昆仑天工作为昆仑万维的重要子板块，主营AGI与AIGC业务，践行昆仑万维"All in AGI与AIGC长期发展战略"，深耕人工智能赛道，昆仑天工致力持续发展大模型技术，同时全身心投入开源社区建设。

强化学习算法研究员

公司地点：北京东城区明阳国际中心c

公司简介：

职位发布者：林女士

融资阶段：

公司规模：100~499人

相似职位：