# 运维工程师 (网络/云原生/容器/大数据方向)
## 关于职位
我们正在寻找一位技能全面的中级运维工程师加入我们的技术团队。您将负责维护和管理公司核心的基础设施,确保其稳定性、安全性和高性能。此职位需要您熟练掌握网络基础、虚拟化、容器技术、大数据平台的部署与运维。
## 工作职责
1. **基础网络维护与配置:**
* 负责交换机(含 VLAN、Trunk、STP 等基础协议)、路由器等网络设备的日常监控、配置、排错和性能优化。
* 保障公司局域网、广域网的稳定运行和安全。
2. **私有云/虚拟化平台管理:**
* 基于 Proxmox VE (PVE) 或类似平台,负责虚拟机的创建、部署、迁移、备份、恢复、扩容与生命周期管理。
* 优化虚拟化平台的资源利用率与性能。
3. **容器平台运维与管理:**
* 负责 Kubernetes (K8s) 集群的部署、配置、监控、升级、扩缩容、故障排除及优化。
* 管理容器化应用的生命周期(部署、回滚、伸缩)。
* 熟悉 Docker 容器技术及其周边生态。
4. **大数据平台部署与运维:**
* 负责 Hadoop (HDFS, YARN) 及相关生态组件(如 Hive, Spark, HBase, Zookeeper 等)的部署、配置、监控、调优和日常维护。
* 保障大数据平台的稳定性和处理性能。
5. **ELK 等工具的部署与运维:**
* 负责 Elasticsearch, Logstash, Kibana (ELK) 或其他日志管理/分析平台的部署、配置、维护、监控和优化。
* 参与构建和完善日志收集、存储、分析和告警体系。
6. **系统部署与运维 (Linux):**
* 熟练管理和维护 Linux 操作系统(如 CentOS, Ubuntu 等)。
* 能够编写脚本(如 Bash, Python)进行自动化运维任务。
7. **监控与告警:**
* 部署、配置和维护监控系统(如 Zabbix, Prometheus+Grafana, Nagios 等)。
* 建立有效的告警机制,快速响应和处理系统故障。
8. **备份与灾备:**
* 设计和实施关键系统和数据的备份策略。
* 定期执行备份恢复演练,确保灾难恢复计划的可行性。
9. **安全防护:**
* 实施和维护基础的系统安全策略(防火墙配置、漏洞修复、访问控制等)。
* 关注安全态势并参与安全事件响应。
10. **技术文档:**
* 编写和更新运维相关文档(部署手册、配置说明、故障处理指南等)。
## 任职要求 (基本/核心)
1. **学历要求:** 计算机科学、信息技术、通信工程或相关专业本科及以上学历。
2. **工作经验:** 2年及以上相关运维工作经验。
3. **网络基础扎实:**
* 深入理解 TCP/IP 协议栈原理。
* **必备技能:** 掌握二层交换基本原理(VLAN, Trunk, STP 等),具备独立配置管理主流品牌(如华为、华三、思科等)交换机的能力。
* 了解常见路由协议(如 OSPF, BGP)更佳。
4. **云原生/虚拟化技能:**
* **必备技能:** 熟练掌握 Proxmox VE (PVE) 或 VMware ESXi / vCenter 等企业级虚拟化平台的部署、操作和运维。**若熟悉 PVE 者优先。**
5. **容器技术:**
* **核心技能:** 精通 Kubernetes (K8s) 的核心概念、架构(Master/Node, Pod, Deployment, Service, Ingress, PV/PVC, ConfigMap, Secret 等)和运维管理。
* 熟练掌握 Docker 容器化技术及其原理。
6. **大数据平台:**
* **核心技能:** 具备 Hadoop(HDFS, YARN)及其周边常用组件(如 Hive, Spark, ZooKeeper, HBase 等至少一种)的部署、配置和基本运维能力。
* 了解 Hadoop 架构原理及常见优化手段。
7. **日志与监控工具:**
* **核心技能:** 具备 ELK Stack (Elasticsearch, Logstash, Kibana) 或类似日志管理方案(如 EFK)的实际部署、配置、维护和使用经验。
* 熟练使用至少一种主流监控系统(如 Zabbix, Prometheus+Grafana)。
8. **操作系统与自动化:**
* 精通 Linux 系统管理(CentOS/Ubuntu 等),熟悉常用命令和服务管理。
* 掌握至少一种脚本语言(Shell/Python/Python 为佳)进行自动化运维。
9. **问题解决能力:** 优秀的故障定位、分析诊断和解决问题的能力,能够快速响应生产环境事故。
10. **责任心与稳定性:** 具备高度的责任感、严谨的工作态度和良好的抗压能力,追求系统的高可用性和稳定性。
11. **学习能力:** 对新技术敏感,有强烈的学习意愿和快速学习能力,能适应技术环境的变化。
## 加分项 (Nice to Have)
1. 熟悉公有云平台(如 AWS, Azure, 阿里云, 腾讯云)的运维经验。
2. 有 Ansible、Terraform 等自动化配置和编排工具经验。
3. 了解消息队列(如 Kafka, RabbitMQ)的运维。
4. 有大规模集群或高并发系统的运维经验。
5. 熟悉 CI/CD 流程和工具(如 Jenkins, GitLab CI)。
6. 拥有 CCNA/CCNP/HCIA/HCIP、CKA/CKAD、RHCE 或同等级别的认证。
## 我们能提供
* 具有竞争力的薪酬和福利待遇
* 接触前沿技术的平台
* 充满挑战与成长机会的工作环境