运维开发

岗位职责:

1.负责对接公司大模型客户的算力平台使用过程中的运维开发:设计并开发高效可靠的运维系统;

2.自动化运维平台开发:负责设计和开发自动化运维平台和工具,提升运维效率,包括但不限于配置管理、持续集成/持续部署(CI/CD)、监控报警、日志分析、故障自愈等系统;

3.系统架构优化:根据业务需求,参与或主导系统架构的优化,确保系统的高可用性、可扩展性和安全性;

4.监控与故障排查:设计和实施全面的系统监控策略,快速响应系统故障,进行故障排查和应急处理,确保服务的稳定运行;

5.性能优化:定期进行系统性能评估,识别瓶颈并实施优化策略,包括数据库优化、缓存策略、负载均衡等;

6.代码与脚本编写:使用Python、Shell、Go等语言编写高质量的运维脚本和工具,以支持自动化运维和系统管理任务。

任职要求:

1.计算机相关专业本科以上学历,5年以上运维开发工作经验;

2.有大型互联网公司或云厂商背景优先;

3.熟悉运维体系故障排查;

4.熟悉云平台、常用中间件(redis, kafka, mysql, rocksdbd等)、云原生组件(docker,K8s,微服务等)的架构设计、运维管理及故障排查;

5.具备良好的编程能力,熟悉至少一种编程语言,如C++、Python、Go等;

6.熟悉网络及安全设备(如路由器、交换机、防火墙等)的配置与管理;

7.具备良好的沟通和团队协作能力,能承担一定的工作压力,具备较强的责任心;

8.拥有良好的组织、沟通能力,能够在高压环境下做出正确决策;

9.加分项:

有大规模分布式系统或云计算平台运维开发的经验;

有深度学习、大模型训练、推理运维、故障处理和稳定性保障的经验;

有系统化开发运维保障平台的经验。

公司地点:北京北四环西路

公司简介:

职位发布者:戚

北京拓驰企业管理咨询有限公司

融资阶段:不需要融资

公司规模:20~99人

相似职位: