大模型算法&工程

职位描述

1、模型压缩和推理框架开发:推理加速的研究,包括但不限于模型量化、剪枝、TensorRT、TensorRT-LLM推理、Batch推理、算子优化优化等;

2、提升模型服务的稳定性,吞吐量;

3、技术输出:定期分享训练和推理优化技术,赋能业务,沉淀专利和论文。

职位要求

1、扎实的机器技术基础,了解前沿的AI技术,有不错的工程实践经验优先,了解 RPC、HTTP Server 等;

2、了解模型推理加速的研究和技术进展,包括但不限于模型量化、剪枝、TensorRT、Flash Attention 推理优化等;

3、了解业界常用的大语言模型推理加速框架,如vLLM,TensorRT-LLM等;

4、在深度学习框架上不错的研究,了解 CUDA,熟悉常用的分布式加速库包括但不限于:Megatron,DeepSpeed等,有较强的实践能力,在框架优化上做过研究的优先;

5、熟悉常用的深度学习代码库包括 Hugginface/Transformers 等,并且有丰富的开发经验;

6、熟悉 TensorFlow/PyTorch 模型的训练和部署,了解混合精度训练、分布式训练等训练加速方法优先。

公司地点:北京九章企业服务工作室

公司简介:

职位发布者:卞俊豪

上海聿贵企业管理咨询有限公司

融资阶段:不需要融资

公司规模:

相似职位: