机器人强化学习算法专家(J10482)

工作职责:

负责机器人领域强化学习（Reinforcement Learning, RL）相关算法的研发与优化，包括策略梯度、深度强化学习（DRL）、分层RL、多智能体RL等；

针对机器人感知、决策、运动规划、控制等任务，设计并实现高效、稳定的RL训练方案；

搭建并维护仿真与真实环境的训练平台，实现仿真到现实（Sim-to-Real）的迁移；

研究并引入前沿强化学习算法，提升机器人在复杂动态环境下的自主决策与执行能力；

与硬件、控制、感知等团队紧密合作，推动算法在实际机器人系统中的落地与性能优化；

撰写技术文档与研究报告，沉淀算法研发经验与技术成果

任职资格:

硕士或博士学历，计算机科学、人工智能、控制科学、机器人学、电子工程等相关专业；

3-5年强化学习算法研发经验，有机器人相关应用经验优先；

精通常用强化学习方法（Q-Learning、DDPG、PPO、SAC等）及其在连续动作空间的应用；

熟练掌握Python/C++编程，精通至少一种深度学习框架（如PyTorch、TensorFlow）；

熟悉机器人运动学、动力学及控制原理，有ROS/ROS2、Gazebo、MuJoCo等仿真平台使用经验；

具备良好的数学基础（概率统计、线性代数、最优化理论）和算法实现能力；

具有较强的科研能力和工程落地能力，善于解决实际问题。

公司地点：深圳龙岗区深圳市人工智能与机器人研究院14楼