大数据开发工程师-上海

1. 核心技术栈

数据处理框架:

熟练使用 Hadoop(HDFS/YARN)、Spark(RDD/DataFrame/Spark SQL)进行数据清洗、转换与计算。

了解 Flink 实时流处理框架基础,能编写简单实时任务。

数据存储:

掌握 Hive(分区/分桶优化)、HBase(RowKey设计)、Kafka(生产者-消费者模型)的原理与应用。

熟悉至少一种关系型数据库(如 MySQL)和 NoSQL 数据库(如 Redis)。

数据开发工具:

熟练使用 Sqoop、DataX 等数据同步工具,能编写基础 ETL 脚本。

熟悉 Airflow、DolphinScheduler 等任务调度工具。

2. 编程与脚本能力

语言要求:

精通 SQL(窗口函数/性能优化),熟练使用 Python 或 Scala 进行数据处理。

了解 Shell 脚本编写,能完成自动化任务(如日志清理、数据备份)。

代码规范:

具备代码调试与调优能力(如 Spark 内存管理、数据倾斜处理)。

3. 数据分析与可视化

分析工具:

熟练使用 Pandas、NumPy 进行数据分析,了解基础统计学方法(如分布/假设检验)。

能通过 Superset、Tableau 制作基础数据报表

公司地点:上海徐汇区阿里巴巴徐汇滨江园区-X区园区

公司简介:

职位发布者:韩经理

杭州煜象领智科技有限公司

融资阶段:

公司规模:

相似职位: