大数据开发工程师-上海

1. 核心技术栈

数据处理框架：

熟练使用 Hadoop（HDFS/YARN）、Spark（RDD/DataFrame/Spark SQL）进行数据清洗、转换与计算。

了解 Flink 实时流处理框架基础，能编写简单实时任务。

数据存储：

掌握 Hive（分区/分桶优化）、HBase（RowKey设计）、Kafka（生产者-消费者模型）的原理与应用。

熟悉至少一种关系型数据库（如 MySQL）和 NoSQL 数据库（如 Redis）。

数据开发工具：

熟练使用 Sqoop、DataX 等数据同步工具，能编写基础 ETL 脚本。

熟悉 Airflow、DolphinScheduler 等任务调度工具。

2. 编程与脚本能力

语言要求：

精通 SQL（窗口函数/性能优化），熟练使用 Python 或 Scala 进行数据处理。

了解 Shell 脚本编写，能完成自动化任务（如日志清理、数据备份）。

代码规范：

具备代码调试与调优能力（如 Spark 内存管理、数据倾斜处理）。

3. 数据分析与可视化

分析工具：

熟练使用 Pandas、NumPy 进行数据分析，了解基础统计学方法（如分布/假设检验）。

能通过 Superset、Tableau 制作基础数据报表

公司地点：上海徐汇区阿里巴巴徐汇滨江园区-X区园区