核心职责
一、数据仓库公共层建设:
1. 负责核心事实表、维度表、通用汇总层的设计、开发、维护与优化。
2.深入理解业务过程,基于维度建模理论(Kimball/Inmon等),设计高内聚、低耦合、可扩展的公共数据模型。
3.推动数据分层规范(如ODS/DWD/DIM/DWS/ADS)的落地执行,确保数据流向清晰、职责明确。
4.解决公共层数据的一致性、准确性、完整性、时效性问题,提升数据可信度。
二、数据建模与设计:
1.主导或深度参与新业务领域或核心业务重构的数据模型设计,产出清晰、规范的模型文档(ER图、数据字典等)。
2.熟练运用缓慢变化维(SCD) 等常用建模技术处理历史数据追踪。
3.平衡范式化与反范式化,在查询性能、存储成本、易用性之间做出合理设计决策。
4.理解数据血缘和数据资产概念,推动模型与数据的资产化管理。
三、ETL/ELT 开发与优化:
1.使用Hive, Spark (SQL/DataFrame), Flink (可选) 等工具高效开发、维护和优化公共层数据处理任务。
2.编写高质量、可复用、易维护的SQL 和 ETL/ELT 代码。
3.关注任务性能与资源消耗,持续进行SQL 优化、参数调优、小文件治理、分区策略优化等。
4.保障数据处理任务的稳定性和SLA。
四、数据质量与治理:
1.设计并实施公共层数据质量监控规则(DQC),覆盖完整性、一致性、准确性、唯一性、及时性等维度。
2.参与数据标准的制定和推广,确保公共层数据的命名、口径、格式统一规范。
3.响应并解决业务方对公共层数据的数据探查、数据问题排查需求。
任职要求
学历与经验:
1.计算机、数学、统计学或相关专业本科及以上学历。
2.3年及以上大数据开发或数据仓库开发经验(高级职位需5年+),有大型互联网企业数据仓库公共层建设经验者优先。
核心技术能力:
1.精通 SQL,具备复杂逻辑编写和高性能优化能力。
2.深入理解数据仓库理论和实践,精通维度建模方法论,有多个领域成功建模经验。
3.精通至少一种大数据处理引擎:Hive , Spark。熟悉 Flink 者优先。
4.熟悉 Hadoop 生态核心组件(HDFS, YARN)。
5.熟悉 Linux 环境及 Shell 脚本。
数据建模能力:
1.能独立负责中等以上复杂度业务领域的数据模型设计。
2.对数据分层架构有深刻理解和实践经验。
3.理解数据资产化、元数据管理、数据血缘的重要性及基本实现方式。
任职要求 (软性要求与加分项)
业务理解力:
1.具备较强的业务抽象能力,能将复杂的业务需求转化为合理的数据模型。
2.规范性与质量意识: 对代码规范、数据规范、数据质量有极高的追求。
3.工程化思维: 注重代码复用性、可维护性、系统健壮性和自动化。
4.沟通协作能力: 优秀的沟通表达能力,能清晰阐述技术方案,有效推动跨团队协作。
5.问题解决能力: 面对复杂数据问题,能独立思考,分析根因,并推动有效解决。
6.学习能力与好奇心: 对大数据领域新技术保持关注和学习热情。
加分项:
1.有实时数仓建设经验(尤其涉及公共层实时化)。
2.熟悉数据治理相关工具或平台建设经验。
3.有大规模数据性能调优或成本优化的显著成果。
4.了解 NoSQL 数据库(如 HBase, Redis)。
5.有领域驱动设计(DDD) 知识背景。