职位详情

主要职责： 1. 设计和开发基于Apache Spark的大数据处理流程，包括ETL（抽取、转换、加载）任务、批处理和实时流处理应用。 2. 利用Hive进行大数据仓库设计和开发，撰写高性能的SQL查询及视图，优化数据模型以提高查询效率。 3. 对现有大数据处理流程进行性能调优，通过合理分区、索引、数据倾斜处理等方式提升数据处理速度和资源利用率。 4. 开发和维护数据治理体系，包括数据质量监控、元数据管理、数据生命周期管理等。 5. 协同业务团队进行需求沟通，梳理数据需求，为决策支持、业务分析和产品优化提供数据支持。任职要求： 1. 理工科专业，至少5年以上大数据开发经验 2. 熟悉Spark编程，包括Scala/Java/Python中至少一种语言进行Spark应用开发，熟练掌握Spark Core、Spark SQL等。 3. 深入了解Hadoop生态系统，对Hive有深厚的理解和实战经验，能够编写复杂高效的Hive SQL查询。 4. 具备扎实的SQL功底，熟悉SQL调优技巧和最佳实践。 5. 熟悉 StarRocks 或 Doris 等主流OLAP组件的原理以及使用 6. 对HDFS、YARN等相关组件有深入的了解。 7. 熟悉Linux操作系统，具备熟练的shell编程功底，熟悉数据仓库和BI工具，具备良好的数据敏感度和问题解决能力。 8. 优秀的沟通能力和团队协作精神加分项： •熟悉Kafka、Flink、HBase、Redis等其他大数据组件和NoSQL数据库。 •有数据湖、数据中台或实时数据处理项目经验。 •对数据安全、隐私保护和合规性有一定的理解和实践经验。

工作地址

北京北京金融街

公司信息

相似的职位

高级大数据开发（5年工作经验以上+）北京NaN数据开发15-17k12薪

合肥英泽信息科技有限公司

职位详情

工作地址

公司信息

相似的职位

大数据研发工程师-调度引擎

大数据研发工程师

数据库开发