岗位职责:
1、主导LLM大模型(千亿级参数训练、MoE架构优化、混合精度训练等)训练架构研发,支持Pytorch/TensorFlow等主流框架的深度定制与分布式扩展;
2、主导高性能训练优化,包括但不限于LLM的分布式并行(数据/模型/流水/专家并行等)以及搜广推模型的高效训练(参数服务器架构、异构加速)的技术攻坚,实现千卡级集群训练效率的提升;
3、带领团队与算法团队进行紧密协作,持续co-design及推进前沿技术转化为可落地的技术方案,确保项目质量与交付效率。
任职要求:
1、精通分布式训练原理,具备Pytorch/TensorFlow底层开发经验;
2、深入理解GPU以及国产芯片架构,掌握混合精度训练、显存优化、通信加速等技术;
3、主导过千亿级参数大模型基础设施建设,具备千卡级集群调优经验,能独立设计高可用、可扩展的训练系统;
4、熟悉Kubernetes集群管理,了解GPU等资源调度以及MLOps的工具链;
5、优秀的沟通能力,2年以上的技术团队管理经验,能有效推动跨部门协作。
加分项:
1、有开源项目贡献经验或顶会论文发表者优先;
2、熟悉国产AI芯片,有适配与优化经验者优先。
BOSS直聘是一款在全球范围内率先发展移动互联网“直聘”模式的在线招聘APP,于2014年7月上线,2021年6月在纳斯达克上市。
BOSS直聘致力于用技术的手段和用户第一的服务理念,为招聘者和求职者搭建高效、便捷、易用的求职招聘的平台。
BOSS直聘产品的核心是“移动+智能匹配+直聊”,通过将在线聊天功能引入招聘场景,让应聘者和用人方直接沟通,让招聘最终决策者直接参与线上招聘,跳过传统的冗长环节,提升效率。
BOSS直聘应用前沿人工智能技术,不断追求岗位与人才的多维度的智能匹配,提升招聘效果。