大数据开发工程师

岗位职责：

1.支持Hadoop集群底座的运维故障分析、解决、性能优化；大数据集相关组件主要包括：Yarn、HDFS、ZooKeeper、Storm、Kafka、Hbase、Hive、Spark、Kerberos、Spark、Flink、Flume、MySQL等组件运维；

2.开展Yarn性能优化，提升集群资源利用率和任务响应速度；队列优化和维护；优化调度器性能；

3.及时关注Apache官方网站、论坛，针对Patch提出升级建议、方案，并组织实施；

4.配合开展HDFS存储、Hive元数据治理优化，建立并完善存储治理方案；

5.配合开展Hive、Spark作业优化，对业务侧提出优化建议。如：作业小文件问题、数据倾斜治理方案等；

6.提出集群优化建设方案，配合建设和优化大规模分布式集群的自动化运维、监控等工具和管理平台。

任职要求：

1.全日制本科及以上学历，通信/计算机等相关专业，具有良好的学习能力、沟通能力、团队合作能力及一定的抗压能力；

2.熟悉Hadoop、Hive、Hbase、Spark等开源项目，理解组件架构及原理；

3.对大数据运维开发有浓厚兴趣，熟悉Apache Hadoop部署、性能调优；

4.能阅读/理解Hadoop等相关开源组件源码；

5.对HQL、SparkSQL等有较深入的研究，能解决实际业务性能问题；

6.熟练掌握LDAP、Kerberos等安全认证体系；

7.熟练掌握Linux命令与工具进行问题定位，熟悉常规的互联网技术架构；

8.具备一定的Java开发能力；

9.擅长Linux Shell、Python脚本编写，有DevOPS/自动化运维经验工作者优先考虑。

公司地点：北京西城区冠华大厦4