职位描述
1、模型压缩和推理框架开发:推理加速的研究,包括但不限于模型量化、剪枝、TensorRT、TensorRT-LLM推理、Batch推理、算子优化优化等;
2、提升模型服务的稳定性,吞吐量;
3、技术输出:定期分享训练和推理优化技术,赋能业务,沉淀专利和论文。
职位要求
1、扎实的机器技术基础,了解前沿的AI技术,有不错的工程实践经验优先,了解 RPC、HTTP Server 等;
2、了解模型推理加速的研究和技术进展,包括但不限于模型量化、剪枝、TensorRT、Flash Attention 推理优化等;
3、了解业界常用的大语言模型推理加速框架,如vLLM,TensorRT-LLM等;
4、在深度学习框架上不错的研究,了解 CUDA,熟悉常用的分布式加速库包括但不限于:Megatron,DeepSpeed等,有较强的实践能力,在框架优化上做过研究的优先;
5、熟悉常用的深度学习代码库包括 Hugginface/Transformers 等,并且有丰富的开发经验;
6、熟悉 TensorFlow/PyTorch 模型的训练和部署,了解混合精度训练、分布式训练等训练加速方法优先。