岗位职责
1. 开发和维护数据采集和抽取流程,从不同数据源(如数据库、日志文件、API等)中提取数据。
2. 清洗和处理原始数据,解决数据质量问题,包括去重、处理缺失值、异常值检测等。
3. 编写ETL脚本和作业,确保数据的实时或批处理导入。
4. 参与数据仓库的设计和建模,确保数据仓库能够满足分析需求。
5. 参与实时计算的业务功能开发,确保数据数据中台能够满足实时分析需求。
6. 对大数据处理框架(如Apache Spark、Hadoop、Flink等)的各组件进行性能监控和分析,并提供优化建议。
岗位要求
1. 本科及以上学历,计算机相关专业。
2. 熟练使用Java、Scala、Python等开发语言,熟练使用IDEA开发环境进行业务功能开发。
3. 熟悉业界常见的数据平台、产品和工具,如Hadoop、阿里Max Compute、腾讯TBDS、华为云等,并熟悉开源大数据平台核心组件的工作原理。熟练使用HDFS、Hive、HBase、ES、Redis、Flume、Sqoop、Spark、Flink、Kafka等开源组件。
4. 熟悉事务型数据库(如Oracle、MySQL、PostgreSQL、SQL Server等)和分析型数据库(如Greenplum、TeraData等),具有丰富的SQL语言开发经验和数据库调优经验。
5. 熟悉常见的ETL工具,如Informatica、Kettle、DolphinScheduler、Azkaban、Oozie等。
6. 良好的沟通能力、表达能力和文档编写能力。
7. 良好的抗压能力和团队协作能力。
8. 参与过电网、电力等能源行业的数据加工和开发者优先。
9. 参与过电力及能源行业指标开发、标签模型设计优先。
10. 根据项目地点,可适应出差要求。
中数睿智依托一批数据领域的国内顶级专家,依托十多年行业技术经验积累,基于自研的底层核心技术,围绕着企业级数据资产的构建及数智化使能,提供核心产品和解决方案。以支撑能源、通信、交通等关键信息基础设施领域大型客户构建集团化数字资产地图,加快客户的数字化转型和国产化替代进程。