岗位描述:
负责模型训练框架和工具的开发、优化等, 提高模型训练的吞吐
1.模型训练框架的优化
a 提升模型训练框架训练的吞吐, 上手的易用程度
b 提升模型训练的效率, 包含不仅限于数据流的优化(NVIDIA DALI), 模型(forward & backward)的优化, (包含不仅限于高效算子编写替换torch compiler), amp使用(accelerate)
c 模型训练精度提升, amp/int8 aware training
d 模型训练框架的重构, 推进文档化, 易用性
2.模型训练可观测性的提升
a 建立模型训练客观性指标, 基于torch.profile或者其他打点工具, 进行多层次粒度上的观测性
b 基于现有的模型, 探索模型训练的linear scaling raw
岗位要求:
1.计算机相关专业本科以上学历 ;优秀的编程能力和数据基础,熟练使用C++/Python
2.熟悉pytorch底层, 完整了解训练pipeline, 具备数据流优化, 训练优化经验
a 熟悉accelerate, megatron等开源的分布式训练框架优先
b 了解训练优化技巧, 包含不限于torch.compiler/算子编写
c 熟悉openai triton
3.热衷于优化end-to-end training system、理解高性能I/O, 用以最大化本地性能以及分布式性能资源