AI架构师（强化学习方向）

主导强化学习优化：负责公司核心项目“AI智能选择工具”的强化学习（RL）算法设计与实现，主导整个模型的优化过程。

算法研发与调优：深入研究并应用PPO、DPO等前沿强化学习算法，持续进行模型训练、评估和调优，以提升AI工具的决策智能和性能。

技术方案设计：主导基于RLHF（人类反馈强化学习）或DPO的项目方案设计与落地，解决模型训练中的关键技术难题。

模型风险管理：预见并解决模型训练过程中可能出现的“模型爆炸”（性能急剧下降或不稳定）等风险，确保模型的稳定性和可靠性。

前沿技术跟进：持续关注强化学习领域的最新研究成果和技术动态，并将其应用于实际项目中，保持团队技术的领先性。

任职资格：

计算机、人工智能、数学或相关专业硕士及以上学历。

深刻理解强化学习理论，精通PPO、DPO等算法的数学原理和实现细节。

具备丰富的RLHF或DPO项目实战经验，有成功落地案例者优先。

熟练掌握SFT（监督微调）技术，并能将其与强化学习流程有效结合。

精通Python编程，熟练使用PyTorch、TensorFlow等深度学习框架。

具备优秀的分析问题和解决问题的能力，能够独立承担核心算法的研发工作。

了解魔搭（ModelScope）等开源社区及相关工具包者优先。

公司地点：北京东城区东城金鱼池地块北京东城区前门大街鲜鱼口88号B8地块B8-109室