运维

工作职责

1、负责AI中台系统的日常运维,包括数据标注、训练平台、调度平台等系统平台的维护与运营监控、故障/客诉问题排查及解决、并及时反馈处理结果;负责平台私有化部署项目交付,包括部署规划、实施和后期运维,确保客户能够得到稳定可靠的服务支持。

2、管理AI任务调度(算力、算法、任务等)策略,确保算法服务的部署、升级和流量切换的平滑过渡、算力资源利用最大化,并支持算法团队的迭代和调优、提供必要的运维支持;

3、负责系统架构规划、资源申请、服务部署及上线、自动化容器化接入、监控接入及完善等日常运维工作,持续推进系统稳定性、安全性及经济性提升,通过开发工具持续提升工作效率。

4、协调开发、测试、运维团队,推进DevOps实践,提升产品运行质量,主动发现并处理生产环境问题,向产品和研发团队提供反馈,推动平台稳定性和运维流程的持续优化;

5、负责关键应用服务、负载均衡设备和业务服务的配置管理,实施容灾和高可用性方案,与安全团队合作,监控运行环境,及时处理安全威胁和数据安全问题;

6、提供7*24小时系统故障应急响应,确保快速恢复服务,并及时反馈处理进度与结果

7、完成上级部门或团队内交办的工作任务。

任职资格

1、本科及以上学历,计算机或网络相关专业,具备扎实的计算机基础知识和数据科学概念理解;

2、精通Linux系统,具备高级维护、配置、优化和故障排除能力,能够开发自动化脚本和工具;

3、熟悉网络协议与设备,了解TCP/IP、HTTP等网络协议,以及交换机、路由器等网络设备的配置和管理;

4、熟悉Docker、Kubernetes等容器化技术,以及微服务架构的设计和运维;熟悉常见开源中间件运维。对分布式计算、存储和网络有深入理解。深入理解分布式计算、存储和网络,能够管理和优化大规模分布式AI系统;

5、具备丰富的AI平台运维经验,熟悉AI模型训练、推理、服务部署及全生命周期管理;

6、精通自动化运维工具和CI/CD流程,能够设计并实施高效的AI项目迭代和部署策略;

7、具备一定的编程能力,能够开发和维护自动化运维解决方案,提高运维效率和系统稳定性;

8、至少3年以上的运维相关工作经验,1年以上AI相关平台运维工作经验,能够独立承担系统或平台的运维工作,有在大型互联网公司的AI平台运维背景者优先;

9、抗压力能力强,具备良好的应急处置能力,能够在较高强度的工作环境下保持冷静并妥善处理各种突发事件;

10、具备优秀的问题解决、沟通、团队协作和学习能力,能够编写清晰准确的运维文档;持续关注并掌握AI技术的最新发展趋势,能够快速适应并整合新技术到运维实践中。

公司地点:广州天河体育中心

公司简介:

职位发布者:邓老师

深圳市展动力人才资讯有限公司成都分公司

融资阶段:不需要融资

公司规模:20~99人

相似职位: