AI开发工程师/专家（大模型工程化方向）

岗位职责：

1、模型工程化与服务化：负责“钛极大模型”的服务化封装、部署与生命周期管理，构建稳定、可靠、可观测的模型API服务。

2、推理性能极致优化：深入研究大模型的推理性能瓶颈，应用模型量化、蒸馏、剪枝、算子融合等技术，并结合TensorRT、ONNX Runtime等加速框架，实现推理延迟和成本的极致优化。

3、AI Infra平台建设：参与或主导AI基础架构平台/工具链的设计与建设，包括但不限于CI/CD for Models（模型的持续集成与部署）、模型版本管理、在线实验（A/B测试）平台等，提升算法团队的迭代效率。

4、GPU资源管理与调度：负责公司GPU集群的资源调度、监控与运维，基于Kubernetes等云原生技术，提升GPU资源的利用率和分配效率。

5、技术协同与赋能：

5.1与算法工程师紧密合作，理解模型结构与计算特点，并将其转化为高效、可扩展的工程实现。

5.2为业务开发团队提供稳定、易用的模型服务接口与技术支持，确保AI能力顺畅地赋能上层应用。

任职要求：

1、编程功底：精通Python/Go/Java中至少一门编程语言，具备扎实的软件工程基础和优秀的系统设计能力。

2、云原生技术：熟悉Docker、Kubernetes (K8s) 等云原生技术栈，有容器化应用的部署和运维经验，熟悉至少一种主流公有云（华为云/AWS/阿里云等）。

3、MLOps实践经验：具备实际的机器学习模型（尤其是深度学习大模型）部署、运维和优化的项目经验，理解MLOps的核心理念与流程。

4、深度学习框架：熟悉PyTorch/TensorFlow/JAX等至少一种主流深度学习框架的底层原理，了解其训练和推理过程。

5、问题解决能力：具备优秀的系统性问题分析与解决能力，能够快速定位并解决复杂的线上性能和稳定性问题。

加分项：

有TensorRT、ONNX Runtime、Triton Inference Server、vLLM等模型推理加速或服务框架的深度使用和优化经验者优先。

有分布式系统、高性能计算（HPC）或GPU编程（CUDA）经验者优先。

有Kubeflow、MLflow等MLOps平台的建设或二次开发经验者优先。

对AI芯片（如NVIDIA GPU架构）有一定了解者优先。

有相关领域的开源项目贡献者优先。

公司地点：广州天河区钛动科技中心广州市天河区华观路与高唐路交汇处时代E-PARK8栋02钛动科技中心