模型优化工程师

岗位描述:

负责模型训练框架和工具的开发、优化等, 提高模型训练的吞吐

1.模型训练框架的优化

a 提升模型训练框架训练的吞吐, 上手的易用程度

b 提升模型训练的效率, 包含不仅限于数据流的优化(NVIDIA DALI), 模型(forward & backward)的优化, (包含不仅限于高效算子编写替换torch compiler), amp使用(accelerate)

c 模型训练精度提升, amp/int8 aware training

d 模型训练框架的重构, 推进文档化, 易用性

2.模型训练可观测性的提升

a 建立模型训练客观性指标, 基于torch.profile或者其他打点工具, 进行多层次粒度上的观测性

b 基于现有的模型, 探索模型训练的linear scaling raw

岗位要求:

1.计算机相关专业本科以上学历 ;优秀的编程能力和数据基础,熟练使用C++/Python

2.熟悉pytorch底层, 完整了解训练pipeline, 具备数据流优化, 训练优化经验

a 熟悉accelerate, megatron等开源的分布式训练框架优先

b 了解训练优化技巧, 包含不限于torch.compiler/算子编写

c 熟悉openai triton

3.热衷于优化end-to-end training system、理解高性能I/O, 用以最大化本地性能以及分布式性能资源

公司地点:深圳深港国际科技园C深圳福田区深港国际科技园C座

公司简介:

职位发布者:黄衡

深圳元戎启行科技有限公司

融资阶段:B轮

公司规模:500~999人

相似职位: