主导强化学习优化:负责公司核心项目“AI智能选择工具”的强化学习(RL)算法设计与实现,主导整个模型的优化过程。
算法研发与调优:深入研究并应用PPO、DPO等前沿强化学习算法,持续进行模型训练、评估和调优,以提升AI工具的决策智能和性能。
技术方案设计:主导基于RLHF(人类反馈强化学习)或DPO的项目方案设计与落地,解决模型训练中的关键技术难题。
模型风险管理:预见并解决模型训练过程中可能出现的“模型爆炸”(性能急剧下降或不稳定)等风险,确保模型的稳定性和可靠性。
前沿技术跟进:持续关注强化学习领域的最新研究成果和技术动态,并将其应用于实际项目中,保持团队技术的领先性。
任职资格:
计算机、人工智能、数学或相关专业硕士及以上学历。
深刻理解强化学习理论,精通PPO、DPO等算法的数学原理和实现细节。
具备丰富的RLHF或DPO项目实战经验,有成功落地案例者优先。
熟练掌握SFT(监督微调)技术,并能将其与强化学习流程有效结合。
精通Python编程,熟练使用PyTorch、TensorFlow等深度学习框架。
具备优秀的分析问题和解决问题的能力,能够独立承担核心算法的研发工作。
了解魔搭(ModelScope)等开源社区及相关工具包者优先。