AI开发工程师/专家(大模型工程化方向)

岗位职责:

1、模型工程化与服务化: 负责“钛极大模型”的服务化封装、部署与生命周期管理,构建稳定、可靠、可观测的模型API服务。

2、推理性能极致优化: 深入研究大模型的推理性能瓶颈,应用模型量化、蒸馏、剪枝、算子融合等技术,并结合TensorRT、ONNX Runtime等加速框架,实现推理延迟和成本的极致优化。

3、AI Infra平台建设: 参与或主导AI基础架构平台/工具链的设计与建设,包括但不限于CI/CD for Models(模型的持续集成与部署)、模型版本管理、在线实验(A/B测试)平台等,提升算法团队的迭代效率。

4、GPU资源管理与调度: 负责公司GPU集群的资源调度、监控与运维,基于Kubernetes等云原生技术,提升GPU资源的利用率和分配效率。

5、技术协同与赋能:

5.1与算法工程师紧密合作,理解模型结构与计算特点,并将其转化为高效、可扩展的工程实现。

5.2为业务开发团队提供稳定、易用的模型服务接口与技术支持,确保AI能力顺畅地赋能上层应用。

任职要求:

1、编程功底: 精通Python/Go/Java中至少一门编程语言,具备扎实的软件工程基础和优秀的系统设计能力。

2、云原生技术: 熟悉Docker、Kubernetes (K8s) 等云原生技术栈,有容器化应用的部署和运维经验,熟悉至少一种主流公有云(华为云/AWS/阿里云等)。

3、MLOps实践经验: 具备实际的机器学习模型(尤其是深度学习大模型)部署、运维和优化的项目经验,理解MLOps的核心理念与流程。

4、深度学习框架: 熟悉PyTorch/TensorFlow/JAX等至少一种主流深度学习框架的底层原理,了解其训练和推理过程。

5、问题解决能力: 具备优秀的系统性问题分析与解决能力,能够快速定位并解决复杂的线上性能和稳定性问题。

加分项:

有TensorRT、ONNX Runtime、Triton Inference Server、vLLM等模型推理加速或服务框架的深度使用和优化经验者优先。

有分布式系统、高性能计算(HPC)或GPU编程(CUDA)经验者优先。

有Kubeflow、MLflow等MLOps平台的建设或二次开发经验者优先。

对AI芯片(如NVIDIA GPU架构)有一定了解者优先。

有相关领域的开源项目贡献者优先。

公司地点:广州天河区钛动科技中心广州市天河区华观路与高唐路交汇处时代E-PARK8栋02钛动科技中心

公司简介:

职位发布者:邱先生

广州钛动科技股份有限公司

融资阶段:B轮

公司规模:500~999人

相似职位: