岗位职责
大规模Al k8s集群可观测性系统架构设计和研发,要求监控指标、日志等长时间存储,查询快速响应。
基于微服务框架设计并开发AI平台数据集管理和模型集管理。
团队内部开发环境集群可用性维护:GPU集群、共享存储集群
任职要求
精通Kubernetes、docker,具备公有云、私有云等产品运维/可观测性架构设计经验者优先;
2年以上相关经验,精通 Prometheus, ELK,Grafana, victoriametrics等主流监控组件;
熟练使用k8s,具备大型集群监控领域相关经验;
熟练使用Go,Python,Shell 脚本语言;
有较强的责任心,技术钻研能力和沟通能力。