推理引擎工程师

1、3年以上推理引擎/高性能计算开发经验，熟悉主流推理框架（TensorRT、Triton、ONNX Runtime等）；

2、精通C++/Python，具备CUDA/OpenCL等GPU编程能力，有算子优化实战案例；

3、深入理解计算机体系结构，熟悉模型编译技术（MLIR、TVM等），掌握性能分析工具（Nsight、perf）；

4、熟悉模型量化（INT8/FP16）、剪枝、蒸馏等压缩技术，具备端-云协同推理经验者优先；

加分项：参与过LLM推理优化（如KV Cache优化、PagedAttention）、熟悉MoE架构或AIGC场景。1、主导AI模型推理引擎的架构设计与核心模块开发，优化LLM、CV等模型的低延迟、高吞吐推理性能；

2、深入硬件层（GPU/TPU/端侧芯片）进行算子和计算图优化，实现模型编译、量化压缩、动态批处理等关键技术；

3、探索大模型推理前沿技术（如 speculative decoding、continuous batching、vLLM优化等）；

4、建立推理服务的监控、诊断与调优体系，实现端到端性能瓶颈分析。

公司地点：北京朝阳区利星行广场C座