端侧大模型推理优化工程师

工作职责

1. 负责端侧高性能大模型推理框架开发，充分挖掘后端硬件的算力，构建业界性能领先的AI框架

2. 负责小爱同学各业务大语言模型和多模态大模型落地到各种端侧设备上，包含车、手机、IoT设备等

3. 负责业界大模型推理技术的跟踪调研，以及学术界技术的落地可行性分析

岗位要求

1. 了解业界主流大模型推理框架，深入理解MNN-LLM、vLLM、SGLang、TensorRT-LLM 等开源框架的设计与实现，具备框架开发经验者优先。

2. 掌握大模型低比特量化技术，具备大模型（如 AWQ, GPTQ, SpinQuant, Seq-MSE 等）的低比特（INT4）量化实践经验，熟悉相关算法原理与优化技巧。

3. 熟悉大模型推理核心优化技术，深入理解并掌握关键推理优化技术，包括但不限于：投机推理、Chunk Prefill、Prompt Cache、FlashAttention系列优化、高效KVCache管理等。

4. 了解主流开源大模型的架构及演进，熟悉 Llama、Qwen、DeepSeek 等大模型结构特点，持续关注学术界与工业界大模型架构的最新动态与发展趋势。

5. 具备端侧硬件优化能力：

- 熟悉端侧CPU/GPU通用硬件编程（如 SIMD 指令集优化）。

- 了解Arm最新计算硬件CME者优先。

- 熟悉至少一款主流NPU（如高通、联发科、海思）的硬件特性及其推理部署工具链。

6. 扎实的工程能力，精通 C++ 和 Python 编程语言，拥有丰富的大型项目开发经验者优先。

7. 具备出色的学习能力、独立分析与解决问题的能力，以及良好的团队协作精神与沟通表达能力。

公司地点：北京海淀区小米科技园(南门)NA

公司简介：

小米集团成立于2010年4月，2018年7月9日在香港交易所主板挂牌上市(1810.HK)，是一家以智能手机、智能硬件和IoT平台为核心的消费电子及智能制造公司。

胸怀“和用户交朋友，做用户心中最酷的公司”的愿景，小米致力于持续创新，不断追求极致的产品服务体验和公司运营效率，努力践行“始终坚持做感动人心、价格厚道的好产品，让全球每个人都能享受科技带来的美好生活”的公司使命。

小米目前是全球领先的智能手机品牌之一，同时，小米已经建立起全球领先的消费级AIoT物联网平台，截至2021年9月30日，AIoT平台已连接的IoT设备（不包括智能手机及笔记本电脑和平板）数突破4亿。集团业务已进入全球逾100个国家和地区。2021年8月，小米集团连续三年进入《财富》2021年「世界500强排行榜」 (Fortune Global 500) ，位列338名，较2020年大幅提升84位。

小米集团目前为恒生指数、恒生中国企业指数、恒生科技指数及恒生神州50指数成份股。

端侧大模型推理优化工程师

公司地点：北京海淀区小米科技园(南门)NA

公司简介：

职位发布者：吴女士

融资阶段：

公司规模：1000~9999人

相似职位：