职位描述
1.负责大模型训练和微调的基础软件框架研发;
2.负责对接上层大模型算法应用部署组件,高效封装自研底层编译器框架和后端多源算子库;
3.参与实现低开发门槛和用户友好的大模型中间层软件栈。
职位要求
1.计算机基础扎实,熟悉C/C++和Python,具备系统软件开发架构能力;
2.熟悉计算机体系结构以及并行计算基本技术,有GPU通用计算研发经验;
3.有Pytorch、TensorFlow或任意一种大模型训练、微调平台的研发,优化或者模型训练经验;
4.熟悉深度学习分布式训练和微调优化方案,了解以太网或者infiniband等高性能网络。
加分项:
1.熟悉Colossal-AI,Ray,Deepspeed或Megatron-LM等大模型分布式训练框架的优先;
2.熟悉大模型压缩,如剪枝或蒸馏等技术的优先;熟悉卷积和transfomer类模型低比特定点量化等技术的优先;
3.有开发运营过开源软件或者为知名开源软件贡献过代码的优先。
无问芯穹致力于提供面向垂直领域大模型的软硬件一体化解决方案,通过高效部署工具链、软硬件一体化整机方案和端侧大模型专用IP等产品,降低大模型的使用门槛,为客户提供高性价比的系统解决方案。我们将与上下游的合作伙伴协同实现面向大模型的MxN算法-芯片联合优化平台,一起构建AI2.0时代的大模型基础设施。
公司目前已得到红杉中国资本领投的天使轮投资,创始团队成员来自清华大学电子系以及国内头部互联网企业,拥有丰富的产业经验和成功的创业经历,技术积累与学术沉淀丰富,已经在人工智能系统优化领域发表高水平学术论文200余篇。
相关成果:
1.GPU高效算子库超越行业商用软件库,在中端工艺GPU上实现比商用软件在高端工艺GPU更优的性能;
2.支撑大模型的高效稀疏推理加速架构,提升稀疏神经网络、图神经网络等计算速度1-3个量级;
3.团队通过稀疏注意力、低比特量化和算子融合技术,并在未来进一步结合底层算子优化、稀疏加速、硬件特性感知、高效互联等能力,将大模型整机解决方案的性价比提升10-50倍。