岗位职责:
数据平台开发与维护
参与企业级数据仓库、数据湖、实时数据平台的架构设计与开发。
开发和优化数据管道(Data Pipeline),确保数据高效、稳定流动。
维护大数据基础设施(如Hadoop、Spark、Flink、Kafka等)。
ETL/ELT开发
设计并实现高效的ETL/ELT流程,处理结构化/非结构化数据。
解决数据清洗、转换、聚合中的性能瓶颈问题。
数据建模与优化
根据业务需求设计数据模型(维度建模、星型/雪花模型等)。
优化SQL查询、存储过程,提升数据处理效率。
数据服务开发
开发数据API、数据服务接口,支持下游应用系统调用。
与数据分析师、业务团队协作,提供可复用的数据资产。
数据质量与治理
实现数据质量监控、血缘追踪、元数据管理等工具。
保障数据准确性、一致性和安全性。
新技术探索
跟踪大数据领域前沿技术(如实时计算、湖仓一体、数据网格等),推动技术落地。
任职要求:
技术能力
精通SQL,熟悉至少一种编程语言(Python/Java/Scala等)。
熟练使用大数据框架(Hadoop/Spark/Flink/Kafka等)。
熟悉主流数据库(MySQL/Oracle/PostgreSQL)和NoSQL(HBase/MongoDB)。
了解云平台数据服务(AWS Redshift、Azure Synapse、GCP BigQuery等)。
经验要求
3年以上数据开发经验,有大规模数据处理实战经验。
熟悉数据仓库理论(如Kimball/Inmon方法论)。
有实时数据流处理或数据湖项目经验者优先。
加分项
熟悉数据治理工具(如Atlas、DataHub)、调度工具(Airflow/DolphinScheduler)。
了解数据可视化(Tableau/Power BI)或机器学习基础。
软技能
逻辑清晰,具备良好的沟通能力和团队协作意识。
能够快速理解业务需求,并将其转化为技术方案。