职位描述
1、负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等;
2、负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量;
3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等;
4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等;
5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率;
6、与算法部门深度合作,进行算法与系统的联合优化。
职位要求
1、熟练掌握Linux环境下的C/C++与Python语言,有大规模机器学习系统或搜广推推荐系统相关经验;
2、熟悉至少一种机器学习框架(Tensorflow/PyTorch/MxNet或其他自研框架);
3、熟悉至少一种大模型训练/推理框架,包括但不限于:vLLM、TensorRT-LLM、SGLang、Megatron-LM等;
4、具有独立解决问题的能力,良好的团队合作精神,具备优秀的复杂问题拆解能力;
5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力。
加分项:
1、有大规模分布式系统架构设计经验;
2、理解GPU硬件架构,理解GPU软件栈(CUDA,cuDNN),具备GPU性能分析的经验。
3、有硕士研究生或博士研究生阶段的计算机系统方向(包含分布式系统,并行计算,编程语言与编译器,网络,存储等)研究背景。
字节跳动成立于2012年3月,公司使命为“Inspire Creativity, Enrich Life(激发创造,丰富生活)”。公司业务覆盖150个国家和地区,拥有15万名员工。
字节跳动在全球推出了多款有影响力的产品,包括今日头条、抖音、西瓜视频、飞书、Lark、PICO、剪映、TikTok等。截至2021年6月,字节跳动旗下产品全球月活跃用户数超过19亿。