岗位职责:
1. 设计、构建和维护高效可靠的数据管道,确保数据采集、存储和处理的高效性;
2. 负责PostgreSQL/MongoDB数据库的优化管理,包括索引优化、查询性能调优及分库分表实施;
3. 使用Airflow开发和管理数据工作流,设计高效的DAG并实现任务自动化调度;
4. 开发维护分布式爬虫系统,解决验证码识别、IP封禁等复杂反爬问题;
5. 参与数据治理体系建设,包括元数据管理、数据质量监控、数据标准制定等;
6. 建立数据维护规范,确保数据完整性、一致性和安全性;
7. 负责多源异构数据(数据库/API/日志等)的抽取、对齐与融合,构建统一数据视图;
8. 搭建和维护Prometheus+Grafana监控体系,保障数据服务SLA;
9. 编写规范的技术文档,与跨部门团队有效沟通数据需求。
任职要求:
1. 精通PostgreSQL/MongoDB:深度掌握索引优化策略与执行计划分析,具备分库分表实战经验,熟悉存储过程开发;
2. 熟练使用Airflow:具有复杂DAG开发经验,能编写自定义Operator,精通任务依赖管理与错误重试机制设计;
3. 爬虫开发:精通Scrapy/BeautifulSoup等框架,能处理动态渲染、验证码破解等反爬场景;
4. Python开发:熟练运用asyncio进行并发编程,精通Pandas/NumPy进行数据清洗分析,熟悉FastAPI/Django等Web框架开发;
5. 运维能力:熟练Linux系统管理及Shell脚本编写,精通Docker容器化部署,掌握CI/CD流水线搭建(GitLab CI/Jenkins),熟悉Git版本控制及协作开发流程;
6. 软技能要求:具备优秀的文档编写能力,能产出清晰的技术方案,良好的跨团队沟通协调能力,对数据敏感,具备较强的问题定位和解决能力。
加分项:
参与过完整的数据治理项目