职位描述
1、负责云原生平台的架构设计、开发与优化,深入应用Docker和Kubernetes技术,确保系统的高效性和可扩展性;
2、主导单机和集群环境的部署与管理,优化资源调度策略,提升系统性能和稳定性;
3、负责GPU算力卡的驱动适配、算力管理与调度,确保GPU资源的高效利用;
4、解决云原生平台运行中的复杂技术问题,设计并实现异常处理机制,保障系统的可靠性;
5、推动云原生技术的落地与创新,完成技术沉淀与团队能力提升。
职位要求
1、本科及以上学历,计算机科学、计算机工程或相关技术领域专业,5年以上云原生开发经验;
2、深入理解Docker和Kubernetes技术细节,具备单机和集群环境的部署、管理及优化经验;
3、熟悉GPU算力卡的驱动安装、配置与优化,具备算力管理和调度的实际经验;
4、精通至少一种编程语言,包括但不限于Python、Go、Java,具备良好的编码能力和工程化思维;
5、熟悉微服务架构,具备云原生生态相关工具(如Prometheus、Istio、Helm等)的使用经验;
6、具备较强的系统设计和架构能力,能够独立完成复杂系统的分析与设计;
7、优秀的沟通能力、团队协作能力及抗压能力,对技术有强烈的责任感和热情。
加分项
1、有大规模云原生平台开发经验,熟悉高并发、高可用系统的设计与实现;
2、熟悉GPU资源调度框架(如NVIDIA K8s Device Plugin、GPU Operator等),具备相关优化经验;
3、有AI或大数据平台开发经验,熟悉模型训练、推理等场景下的算力管理;
4、熟悉CI/CD流程,具备自动化运维和DevOps实践经验;
5、参与过开源项目或有技术博客分享经验,具备较强的技术影响力。