主要职责:
1. 设计和实现高效的数据湖架构,支持多种数据格式和处理模式
2. 开发和优化数据处理管道,确保数据的准确性、一致性和可用性
3. 构建灵活的数据存储和查询解决方案,支持多样化的业务需求
4. 实现数据版本控制和数据治理机制,提升数据质量和可追溯性
5. 设计和开发数据服务接口,支持上层应用和业务系统的数据需求
6. 优化数据处理性能,确保系统的可扩展性和可靠性
7. 参与技术选型和架构决策,推动团队技术创新
技能要求:
1. 计算机科学、软件工程或相关领域的学士及以上学位
2. 5年以上大数据开发经验,深入理解数据湖架构和设计模式
3. 精通主流大数据技术栈,包括但不限于:
- 分布式存储系统
- 流处理和批处理引擎
- 数据湖存储格式和技术
- 元数据管理和数据目录工具
4. 扎实的编程基础,精通Java,熟悉Python或Scala
5. 具备设计和实现复杂ETL流程的经验
6. 熟悉实时数据处理和流处理技术
7. 具备处理结构化和非结构化数据的经验
8. 了解数据版本控制和数据治理最佳实践
9. 具备优秀的问题解决能力和团队协作精神
加分项:
1. 具备大规模分布式系统设计和优化经验
2. 熟悉机器学习和AI技术,能够支持数据科学团队的需求
3. 有开源项目贡献经验
4. 了解云原生技术和容器化部署
5. 具备数据安全和隐私保护相关经验