岗位职责:
• 负责智算中心的日常运维工作,包括系统监控、故障排查和性能优化
• 使用集群管理工具和监控工具(如Kubernetes、Prometheus)确保系统高效运行
• 与开发和硬件团队合作,持续改进系统运维流程,提升系统稳定性和响应速度
• 负责系统的安全管理,定期更新和维护系统软件
• 根据需要撰写运维文档,确保团队成员了解系统运维情况
任职要求:
1、本科或以上学历,较强的文档管理能力,责任心强,良好的沟通能力和协调能力;
2、熟悉 x86 服务器配置和架构,有多年x86服务器维护经验;
3、熟悉 Linux 、windows操作系统安装,配置和故障诊断;
4、独立完成 x86 服务器和操作系统故障诊断和修复;
5、熟悉GPU的基本安装维护常识及规范;
6、有独立作业Linux系统及软件排障能力的优先;
公司介绍:
上海信弘智能科技有限公司(ZENTEK)是 NVIDIA 核心合作伙伴。
是一家专注于数据中心级计算加速解决方案,提供人工智能、高性能计算、数字孪生领域数字化转型服务的公司。
我们为客户提供规划、建造及运营的端到端服务。公司核心团队为客户提供从IT规划,实施到系统运维的服务。所覆盖的产品包含 AI高性能计算与大数据平台、云计算平台;在数字化转型、人工智能与高性能计算、云计算、信息系统集成与服务领域具有丰富的经验。
总部位于上海虹桥商务区,在北京、深圳、成都、重庆和美国设有分支机构。