AI架构师(强化学习方向)

主导强化学习优化:负责公司核心项目“AI智能选择工具”的强化学习(RL)算法设计与实现,主导整个模型的优化过程。

算法研发与调优:深入研究并应用PPO、DPO等前沿强化学习算法,持续进行模型训练、评估和调优,以提升AI工具的决策智能和性能。

技术方案设计:主导基于RLHF(人类反馈强化学习)或DPO的项目方案设计与落地,解决模型训练中的关键技术难题。

模型风险管理:预见并解决模型训练过程中可能出现的“模型爆炸”(性能急剧下降或不稳定)等风险,确保模型的稳定性和可靠性。

前沿技术跟进:持续关注强化学习领域的最新研究成果和技术动态,并将其应用于实际项目中,保持团队技术的领先性。

任职资格:

计算机、人工智能、数学或相关专业硕士及以上学历。

深刻理解强化学习理论,精通PPO、DPO等算法的数学原理和实现细节。

具备丰富的RLHF或DPO项目实战经验,有成功落地案例者优先。

熟练掌握SFT(监督微调)技术,并能将其与强化学习流程有效结合。

精通Python编程,熟练使用PyTorch、TensorFlow等深度学习框架。

具备优秀的分析问题和解决问题的能力,能够独立承担核心算法的研发工作。

了解魔搭(ModelScope)等开源社区及相关工具包者优先。

公司地点:北京东城区东城金鱼池地块北京东城区前门大街鲜鱼口88号B8地块B8-109室

公司简介:

职位发布者:杨经理

中富通集团股份有限公司

融资阶段:

公司规模:1000~9999人

相似职位: