爬虫工程师

加入我们，你需要做的：

1. 负责数据平台的数据采集与爬取、解析处理、入库及备份等数据日常工作；

2. 数据采集工具软件平台的开发、测试工作；

3. 负责分析新的数据需求, 完成数据处理的设计(文档)和实现；

4. 负责数据的清洗、整理、整合及合并等工作；

5. 负责数据处理程序设计框架改善, 数据处理性能优化, 系统数据处理的能力提高；

6. 实时监控爬虫的进度和警报反馈。

要在这个角色中脱颖而出，你需要具备：

1. 本科以上学历，3年以上开发经验，其中2年以上爬虫开发经验；

2. 熟悉Linux，精通Python；

3. 熟悉http协议，有网络编程经验；

4. 熟悉Javascript，html，css，熟悉AJAX；

5. 精通全网页抓取原理和相关技术，了解常见的反扒机制；

6. 熟悉python爬虫框架 scrapy, scrapy-redis, selenium, phantomjs；

7. 熟悉整个爬虫的设计及实现流程，有从事网络爬虫、网页信息抽取开发经验，熟悉反爬虫技术，有分布式爬虫架构经验；

8. 熟练使用MySQL数据库，掌握redis、mongodb、hive等常用nosql技术并具有实战经验；

9. 学习能力强，工作负责认真，具有强烈的进取精神和乐观的工作态度。

公司地点：上海国定路335号1号楼11楼11001室