岗位职责:
1、模型工程化与服务化: 负责“钛极大模型”的服务化封装、部署与生命周期管理,构建稳定、可靠、可观测的模型API服务。
2、推理性能极致优化: 深入研究大模型的推理性能瓶颈,应用模型量化、蒸馏、剪枝、算子融合等技术,并结合TensorRT、ONNX Runtime等加速框架,实现推理延迟和成本的极致优化。
3、AI Infra平台建设: 参与或主导AI基础架构平台/工具链的设计与建设,包括但不限于CI/CD for Models(模型的持续集成与部署)、模型版本管理、在线实验(A/B测试)平台等,提升算法团队的迭代效率。
4、GPU资源管理与调度: 负责公司GPU集群的资源调度、监控与运维,基于Kubernetes等云原生技术,提升GPU资源的利用率和分配效率。
5、技术协同与赋能:
5.1与算法工程师紧密合作,理解模型结构与计算特点,并将其转化为高效、可扩展的工程实现。
5.2为业务开发团队提供稳定、易用的模型服务接口与技术支持,确保AI能力顺畅地赋能上层应用。
任职要求:
1、编程功底: 精通Python/Go/Java中至少一门编程语言,具备扎实的软件工程基础和优秀的系统设计能力。
2、云原生技术: 熟悉Docker、Kubernetes (K8s) 等云原生技术栈,有容器化应用的部署和运维经验,熟悉至少一种主流公有云(华为云/AWS/阿里云等)。
3、MLOps实践经验: 具备实际的机器学习模型(尤其是深度学习大模型)部署、运维和优化的项目经验,理解MLOps的核心理念与流程。
4、深度学习框架: 熟悉PyTorch/TensorFlow/JAX等至少一种主流深度学习框架的底层原理,了解其训练和推理过程。
5、问题解决能力: 具备优秀的系统性问题分析与解决能力,能够快速定位并解决复杂的线上性能和稳定性问题。
加分项:
有TensorRT、ONNX Runtime、Triton Inference Server、vLLM等模型推理加速或服务框架的深度使用和优化经验者优先。
有分布式系统、高性能计算(HPC)或GPU编程(CUDA)经验者优先。
有Kubeflow、MLflow等MLOps平台的建设或二次开发经验者优先。
对AI芯片(如NVIDIA GPU架构)有一定了解者优先。
有相关领域的开源项目贡献者优先。