高级大数据开发(5年工作经验以上+)

主要职责:

1. 设计和开发基于Apache Spark的大数据处理流程,包括ETL(抽取、转换、加载)任务、批处理和实时流处理应用。

2. 利用Hive进行大数据仓库设计和开发,撰写高性能的SQL查询及视图,优化数据模型以提高查询效率。

3. 对现有大数据处理流程进行性能调优,通过合理分区、索引、数据倾斜处理等方式提升数据处理速度和资源利用率。

4. 开发和维护数据治理体系,包括数据质量监控、元数据管理、数据生命周期管理等。

5. 协同业务团队进行需求沟通,梳理数据需求,为决策支持、业务分析和产品优化提供数据支持。

任职要求:

1. 理工科专业,至少5年以上大数据开发经验

2. 熟悉Spark编程,包括Scala/Java/Python中至少一种语言进行Spark应用开发,熟练掌握Spark Core、Spark SQL等。

3. 深入了解Hadoop生态系统,对Hive有深厚的理解和实战经验,能够编写复杂高效的Hive SQL查询。

4. 具备扎实的SQL功底,熟悉SQL调优技巧和最佳实践。

5. 熟悉 StarRocks 或 Doris 等主流OLAP组件的原理以及使用

6. 对HDFS、YARN等相关组件有深入的了解。

7. 熟悉Linux操作系统,具备熟练的shell编程功底,熟悉数据仓库和BI工具,具备良好的数据敏感度和问题解决能力。

8. 优秀的沟通能力和团队协作精神

加分项: •熟悉Kafka、Flink、HBase、Redis等其他大数据组件和NoSQL数据库。

•有数据湖、数据中台或实时数据处理项目经验。

•对数据安全、隐私保护和合规性有一定的理解和实践经验。

公司地点:北京北京金融街

公司简介:

职位发布者:胡

合肥英泽信息科技有限公司

融资阶段:不需要融资

公司规模:500~999人

相似职位: