1. 核心技术栈
数据处理框架:
熟练使用 Hadoop(HDFS/YARN)、Spark(RDD/DataFrame/Spark SQL)进行数据清洗、转换与计算。
了解 Flink 实时流处理框架基础,能编写简单实时任务。
数据存储:
掌握 Hive(分区/分桶优化)、HBase(RowKey设计)、Kafka(生产者-消费者模型)的原理与应用。
熟悉至少一种关系型数据库(如 MySQL)和 NoSQL 数据库(如 Redis)。
数据开发工具:
熟练使用 Sqoop、DataX 等数据同步工具,能编写基础 ETL 脚本。
熟悉 Airflow、DolphinScheduler 等任务调度工具。
2. 编程与脚本能力
语言要求:
精通 SQL(窗口函数/性能优化),熟练使用 Python 或 Scala 进行数据处理。
了解 Shell 脚本编写,能完成自动化任务(如日志清理、数据备份)。
代码规范:
具备代码调试与调优能力(如 Spark 内存管理、数据倾斜处理)。
3. 数据分析与可视化
分析工具:
熟练使用 Pandas、NumPy 进行数据分析,了解基础统计学方法(如分布/假设检验)。
能通过 Superset、Tableau 制作基础数据报表