大模型算法&工程

职位描述

1、模型压缩和推理框架开发：推理加速的研究，包括但不限于模型量化、剪枝、TensorRT、TensorRT-LLM推理、Batch推理、算子优化优化等；

2、提升模型服务的稳定性，吞吐量；

3、技术输出：定期分享训练和推理优化技术，赋能业务，沉淀专利和论文。

职位要求

1、扎实的机器技术基础，了解前沿的AI技术，有不错的工程实践经验优先，了解 RPC、HTTP Server 等；

2、了解模型推理加速的研究和技术进展，包括但不限于模型量化、剪枝、TensorRT、Flash Attention 推理优化等；

3、了解业界常用的大语言模型推理加速框架，如vLLM，TensorRT-LLM等；

4、在深度学习框架上不错的研究，了解 CUDA，熟悉常用的分布式加速库包括但不限于：Megatron，DeepSpeed等，有较强的实践能力，在框架优化上做过研究的优先；

5、熟悉常用的深度学习代码库包括 Hugginface/Transformers 等，并且有丰富的开发经验；

6、熟悉 TensorFlow/PyTorch 模型的训练和部署，了解混合精度训练、分布式训练等训练加速方法优先。

公司地点：北京九章企业服务工作室