核心职责
- 负责智算平台研发技术方向、制定技术路线及研发流程。
- 进行企业级智算平台的架构设计、开发与维护,主导设计弹性可扩展的云原生智算平台架构,以支持大模型开发、训练、微调、推理、在线服务、智算平台运维等场景。
- 深入了解 AI Infra(基础设施)相关的行业趋势和主流技术如 Infiniband/RoCE 网络、存储、GPU/NPU 资源调度、GPU 共享与切分等,可选择合适的工具构建智算平台基础设施并可优化其性能、降低成本。
- 跟踪并熟悉业界主流的大模型技术趋势如 MoE、主流大模型训练框架(如 Pytorch)、 主流大模型推理框架(如 SGLang 和 vLLM)、向量数据库、AI Agent 与 MCP 等技术,推动主流技术在智算平台的落地与创新。
- 理解业务需求,具备将相关需求转化为标准化的平台服务的能力,可低成本高效率地满足内外部用户的需求。
- 参与公司技术战略规划,具备商业敏感性、探索智算平台的商业化路径。
- 制定标准化开发及运维规范,确保系统安全性、稳定性和可维护性,符合行业合规要求。
任职要求
- 10 年以上大型软件系统研发经验;
- 具备现代企业级软件架构经验,熟悉云原生理念、精通云原生技术栈(如 Kubernetes、Prometheus、Operator 开发等)、有云原生相关产品与服务的架构设计与开发经验。
- 具备 AI 基础设施相关经验更佳包括但不限于主流 GPU 的安装、配置、使用与运维,Infiniband/RoCE 网络搭建与测试,分布式存储对接,GPU/NPU 资源调度、GPU 共享与切分,国产 AI 芯片测试与适配等。
- 精通 Python 和 Go,有其他语言经验更佳。
- 熟悉主流 AI 框架和技术栈。
- 对计算、存储、网络等底层资源调度有深刻理解。
- 出色的跨团队协作能力,能平衡技术理想与业务落地需求。
- 具备技术前瞻性,对 AI 行业趋势有敏锐判断。
优先条件:
1、有智算中心、云计算大厂或 AI Infra 公司相关工作背景者优先。
2、发表过AI/系统领域顶会论文或专利者优先。