加入我们,你需要做的:
1. 负责数据平台的数据采集与爬取、解析处理、入库及备份等数据日常工作;
2. 数据采集工具软件平台的开发、测试工作;
3. 负责分析新的数据需求, 完成数据处理的设计(文档)和实现;
4. 负责数据的清洗、整理、整合及合并等工作;
5. 负责数据处理程序设计框架改善, 数据处理性能优化, 系统数据处理的能力提高;
6. 实时监控爬虫的进度和警报反馈。
要在这个角色中脱颖而出,你需要具备:
1. 本科以上学历,3年以上开发经验,其中2年以上爬虫开发经验;
2. 熟悉Linux,精通Python;
3. 熟悉http协议,有网络编程经验;
4. 熟悉Javascript,html,css,熟悉AJAX;
5. 精通全网页抓取原理和相关技术,了解常见的反扒机制;
6. 熟悉python爬虫框架 scrapy, scrapy-redis, selenium, phantomjs;
7. 熟悉整个爬虫的设计及实现流程,有从事网络爬虫、网页信息抽取开发经验,熟悉反爬虫技术,有分布式爬虫架构经验;
8. 熟练使用MySQL数据库,掌握redis、mongodb、hive等常用nosql技术并具有实战经验;
9. 学习能力强,工作负责认真,具有强烈的进取精神和乐观的工作态度。