高级大数据开发（5年工作经验以上+）

主要职责：

1. 设计和开发基于Apache Spark的大数据处理流程，包括ETL（抽取、转换、加载）任务、批处理和实时流处理应用。

2. 利用Hive进行大数据仓库设计和开发，撰写高性能的SQL查询及视图，优化数据模型以提高查询效率。

3. 对现有大数据处理流程进行性能调优，通过合理分区、索引、数据倾斜处理等方式提升数据处理速度和资源利用率。

4. 开发和维护数据治理体系，包括数据质量监控、元数据管理、数据生命周期管理等。

5. 协同业务团队进行需求沟通，梳理数据需求，为决策支持、业务分析和产品优化提供数据支持。

任职要求：

1. 理工科专业，至少5年以上大数据开发经验

2. 熟悉Spark编程，包括Scala/Java/Python中至少一种语言进行Spark应用开发，熟练掌握Spark Core、Spark SQL等。

3. 深入了解Hadoop生态系统，对Hive有深厚的理解和实战经验，能够编写复杂高效的Hive SQL查询。

4. 具备扎实的SQL功底，熟悉SQL调优技巧和最佳实践。

5. 熟悉 StarRocks 或 Doris 等主流OLAP组件的原理以及使用

6. 对HDFS、YARN等相关组件有深入的了解。

7. 熟悉Linux操作系统，具备熟练的shell编程功底，熟悉数据仓库和BI工具，具备良好的数据敏感度和问题解决能力。

8. 优秀的沟通能力和团队协作精神

加分项： •熟悉Kafka、Flink、HBase、Redis等其他大数据组件和NoSQL数据库。

•有数据湖、数据中台或实时数据处理项目经验。

•对数据安全、隐私保护和合规性有一定的理解和实践经验。

公司地点：北京北京金融街