1.对接蚂蚁所有业务线的深度学习训练优化,开发分布式加速策略,定制算子,优化训练中数据预处理,低精度训练等模块,最终沉淀为通用解决方案并实现其自动化;
2.PyTorch/TensorFlow等分布式训练内核优化扩展库研发;
3.负责蚂蚁深度学习智能训练服务的研发;
4.蚂蚁端到端的在线/离线学习训练系统开发。
5.参与蚂蚁新一代分布式深度学习编译器开发
6.参与蚂蚁开源深度学习系统DLRover开发建设
职位要求
1.计算机相关学科研究生学历以上,基本功扎实,5(+)年相关工作经验;
2.精通至少一门 Python/Go/C++等编程语言,并有良好的代码风格;
3.具有分布式系统服务/并行计算系统设计与研发优化经验;
4.代码级精通主流深度学习框架及扩展库的使用及算子开发,例如
TensorFlow/PyTorch/DeepSpeed/FairScale/ColossalAl/Hugging等;
5.有 CUDA 开发经验者优先;
6.有 深度学习编译技术栈开发经验者优先,如:MLIR, openxla, torch dynamo/inductor, openai-triton,.….
7.有开源社区经验者优先;
8.熟悉文本/语音/图像/推荐等模型算法者优先。
蚂蚁集团创办于2004年,是移动支付平台「支付宝」的母公司,也是领先的金融科技开放平台,致力于携手合作伙伴,为消费者和小微经营者提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。 旗下产品包括支付宝、蚂蚁森林、余额宝、蚂蚁链、OceanBase等。