工作职责:
1.处理大规模原始数据的收集和处理。
2.在Kubernetes上开发和管理大数据基础设施,确保可用性、可扩展性、弹性和安全性。
3. 管理并有效整合自建基础设施与云服务提供商(如AWS和Databricks)的服务。
4. 构建和改进数据提取、转换、加载和清洗的基础设施,使用API、SQL和AWS技术从各种来源获取数据。
5.通过构建工具、流程和管道,提高数据质量,以强制、检查和管理大规模的数据质量。
6. 实施数据操作的CI/CD管道,确保数据模型和应用的高效平滑部署。
职位要求:
1. 有5年以上构建可扩展的批处理和流数据管道的经验(使用Spark或Flink)。
2.有3年以上设计和实施从多种来源(使用API、SQL、Spark和AWS技术)进行数据ETL和清洗管道的经验。
3.对Kubernetes、流处理、分布式数据库和云存储(例如S3)有深入了解。
4.在JVM语言(Scala不是必须的,但优先考虑)方面有丰富的经验。
5. 具备良好的英语听说沟通能力
加分项:
1. 有构建和管理消息队列(如Kafka和Kinesis)的经验。
2.具备Spark和Flink集群开发和维护的经验。