主要职责: 1. 设计和开发基于Apache Spark的大数据处理流程,包括ETL(抽取、转换、加载)任务、批处理和实时流处理应用。 2. 利用Hive进行大数据仓库设计和开发,撰写高性能的SQL查询及视图,优化数据模型以提高查询效率。 3. 对现有大数据处理流程进行性能调优,通过合理分区、索引、数据倾斜处理等方式提升数据处理速度和资源利用率。 4. 开发和维护数据治理体系,包括数据质量监控、元数据管理、数据生命周期管理等。 5. 协同业务团队进行需求沟通,梳理数据需求,为决策支持、业务分析和产品优化提供数据支持。 任职要求: 1. 理工科专业,至少5年以上大数据开发经验 2. 熟悉Spark编程,包括Scala/Java/Python中至少一种语言进行Spark应用开发,熟练掌握Spark Core、Spark SQL等。 3. 深入了解Hadoop生态系统,对Hive有深厚的理解和实战经验,能够编写复杂高效的Hive SQL查询。 4. 具备扎实的SQL功底,熟悉SQL调优技巧和最佳实践。 5. 熟悉 StarRocks 或 Doris 等主流OLAP组件的原理以及使用 6. 对HDFS、YARN等相关组件有深入的了解。 7. 熟悉Linux操作系统,具备熟练的shell编程功底,熟悉数据仓库和BI工具,具备良好的数据敏感度和问题解决能力。 8. 优秀的沟通能力和团队协作精神 加分项: •熟悉Kafka、Flink、HBase、Redis等其他大数据组件和NoSQL数据库。 •有数据湖、数据中台或实时数据处理项目经验。 •对数据安全、隐私保护和合规性有一定的理解和实践经验。
北京北京金融街
高级大数据开发(5年工作经验以上+)北京NaN数据开发15-17k12薪
合肥英泽信息科技有限公司