职位描述:
1. 负责处理客户在使用云平台、计算、GPU、存储等产品时遇到的技术问题及故障。
2. 针对客户需求,设计并优化存储、网络及容器化部署方案,对系统性能进行调优,提升资源利用率和用户体验。
3. 具备优秀的沟通技巧和丰富的团队协作经验,始终秉持敬业精神,将“客户至上”的理念贯穿于每一个细节,确保为客户提供最优质的服务体验。
4. 具有较强的Troubleshooting能力,能够快速的解决客户反馈的技术问题,好的技术文档撰写能力和工作习惯,善于学习新技术;
职位要求:
1. 熟悉Docker、Kubernetes(k8s)的部署与运维,有中大型容器业务运维经验者优先,尤其是GPU相关方向;
2. 熟悉pytorch、TensorFlow基本架构以及基本的排障。
3. 熟悉块存储、文件存储、对象存储的原理与应用,能够处理存储性能优化及容器化环境中的存储问题;
4. 熟悉TCP/IP、NFS、HTTP等主流网络协议,能够快速定位并解决网络故障;
5. 熟练使用Shell、Python、Go中的至少一种编程语言,能够编写自动化脚本或工具;
6. 熟练使用Prometheus、Grafana、ELK等监控与日志分析工具,能够通过数据分析定位系统问题;