智算研发架构师

核心职责

- 负责智算平台研发技术方向、制定技术路线及研发流程。

- 进行企业级智算平台的架构设计、开发与维护，主导设计弹性可扩展的云原生智算平台架构，以支持大模型开发、训练、微调、推理、在线服务、智算平台运维等场景。

- 深入了解 AI Infra（基础设施）相关的行业趋势和主流技术如 Infiniband/RoCE 网络、存储、GPU/NPU 资源调度、GPU 共享与切分等，可选择合适的工具构建智算平台基础设施并可优化其性能、降低成本。

- 跟踪并熟悉业界主流的大模型技术趋势如 MoE、主流大模型训练框架（如 Pytorch）、主流大模型推理框架（如 SGLang 和 vLLM）、向量数据库、AI Agent 与 MCP 等技术，推动主流技术在智算平台的落地与创新。

- 理解业务需求，具备将相关需求转化为标准化的平台服务的能力，可低成本高效率地满足内外部用户的需求。

- 参与公司技术战略规划，具备商业敏感性、探索智算平台的商业化路径。

- 制定标准化开发及运维规范，确保系统安全性、稳定性和可维护性，符合行业合规要求。

任职要求

- 10 年以上大型软件系统研发经验；

- 具备现代企业级软件架构经验，熟悉云原生理念、精通云原生技术栈（如 Kubernetes、Prometheus、Operator 开发等）、有云原生相关产品与服务的架构设计与开发经验。

- 具备 AI 基础设施相关经验更佳包括但不限于主流 GPU 的安装、配置、使用与运维，Infiniband/RoCE 网络搭建与测试，分布式存储对接，GPU/NPU 资源调度、GPU 共享与切分，国产 AI 芯片测试与适配等。

- 精通 Python 和 Go，有其他语言经验更佳。

- 熟悉主流 AI 框架和技术栈。

- 对计算、存储、网络等底层资源调度有深刻理解。

- 出色的跨团队协作能力，能平衡技术理想与业务落地需求。

- 具备技术前瞻性，对 AI 行业趋势有敏锐判断。

优先条件：

1、有智算中心、云计算大厂或 AI Infra 公司相关工作背景者优先。

2、发表过AI/系统领域顶会论文或专利者优先。

公司地点：北京朝阳区电子城·国际电子总部北京市朝阳区酒仙桥路6号院9号楼11层