深度学习框架研发工程师大模型预训练方向

工作地点:北京、深圳

岗位职责

1.参与开发优化大模型训练框架,支持单任务万卡以上规模高效稳定训练;

2.参与NLP、多模态大模型结构设计,并联合业务进行模型训练效率和效果验证;

3.参与文生图、文生视频、文生3D等业务的训练性能加速

4.参与低精度训练性能优化和业务推广、参与大窗口训练性能优化

岗位要求

1.熟练使用PyTorch框架,可对DDP训练的代码进行性能分析和优化。

2.熟练使用主流大模型训练框架DeepSpeed、Megatron,掌握3D并行、ZeRO机制、Flash-Attn等的原理、使用场景、优劣势以及可优化方向。

3.有ViT、SD、DiT模型训练性能优化经验者优先。

4.熟练掌握CUDA性能优化手段,有算子编写优化项目经验者优先。

5.对大模型前沿技术比较敏锐者优先。

6.有实际大模型的训练调参和效果评测项目经验的优先;

7.良好的沟通能力、解决问题能力。

公司地点:北京海淀区腾讯北京总部大楼1

公司简介:

腾讯以技术丰富互联网用户的生活。

通过通信及社交平台微信和 QQ 促进用户联系,并助其连接数字内容和生活服务,尽在弹指间。

通过高效广告平台,协助品牌和市场营销者触达数以亿计的中国消费者。

通过金融科技及企业服务,促进合作伙伴业务发展,助力实现数字化升级。

我们大力投资于人才队伍和推动科技创新,积极参与互联网行业协同发展。

腾讯于 1998 年11月在中国深圳成立,2004 年6月在香港联合交易所主板上市。

职位发布者:周女士

腾讯科技(上海)有限公司

融资阶段:

公司规模:1000~9999人

相似职位: