1、参与大模型超大规模文本及多模态训练的效率和稳定性提升的工作;
2. 支持百亿~万亿规模参数的 稠密(dense)/稀疏(moe) 模型的预训练(pretrain/CPT) 和后训练(SFT/RL)能力建设和优化工作
3. 通过推理和训练加速,训推一体复用等技术,在前沿的异构设备上实现极致的强化学习性能
职位要求
1. 有扎实的工程算法基础,有中大规模集群的文本/语音/图像/视频大模型高性能训练代码实现(包括不限于Qwen、LLama、BLIP2、LLaVA、MiniGPT、VisualGLM、Qwen-VL、QwenAudio、CosyVoice),以及实际训练经验
2. 有大模型分布式训练经验,有大规模分布式训练集群性能&稳定性优化经验,精通GPU设备上的训练性能分析,以及GPU算子和通信开发。有FP8训练(权重、优化器)经验者优先。
3.熟练掌握megatron/deepspeed/openRLHF/chatlearn/veRL 等常用的大模型pretrain & post training 框架,并有框架二次开发的能力。有大规模分布式训练系统实现经验者优先
4. 学习能力强,并保持关注训练领域的前沿技术,在训练领域有相关研究和成本发表者优先
2021年4月,阿里巴巴集团成立智能信息事业群,包含夸克事业部、UC事业部、书旗事业部、智能营销平台等业务版块,核心产品为夸克App、UC浏览器、书旗小说、超级汇川广告平台等。
近两年,智能信息事业群孵化的智能搜索App夸克获得快速成长,UC浏览器、书旗小说等产品持续进化,在信息服务领域取得了不同维度的突破。智能信息事业群将集中业务资源和组织优势,聚焦智能信息服务赛道的创新机会,从用户需求出发,探索AI技术的创新应用,以“智能工具+内容”的新模式,从工具产品升级到服务平台,持续为用户提供高效、智能的互联网产品。
2021年8月至今,吴嘉担任智能信息事业群总裁。