爬虫工程师

加入我们,你需要做的:

1. 负责数据平台的数据采集与爬取、解析处理、入库及备份等数据日常工作;

2. 数据采集工具软件平台的开发、测试工作;

3. 负责分析新的数据需求, 完成数据处理的设计(文档)和实现;

4. 负责数据的清洗、整理、整合及合并等工作;

5. 负责数据处理程序设计框架改善, 数据处理性能优化, 系统数据处理的能力提高;

6. 实时监控爬虫的进度和警报反馈。

要在这个角色中脱颖而出,你需要具备:

1. 本科以上学历,3年以上开发经验,其中2年以上爬虫开发经验;

2. 熟悉Linux,精通Python;

3. 熟悉http协议,有网络编程经验;

4. 熟悉Javascript,html,css,熟悉AJAX;

5. 精通全网页抓取原理和相关技术,了解常见的反扒机制;

6. 熟悉python爬虫框架 scrapy, scrapy-redis, selenium, phantomjs;

7. 熟悉整个爬虫的设计及实现流程,有从事网络爬虫、网页信息抽取开发经验,熟悉反爬虫技术,有分布式爬虫架构经验;

8. 熟练使用MySQL数据库,掌握redis、mongodb、hive等常用nosql技术并具有实战经验;

9. 学习能力强,工作负责认真,具有强烈的进取精神和乐观的工作态度。

公司地点:上海国定路335号1号楼11楼11001室

公司简介:

职位发布者:陈老师

上海晏鼠计算机技术股份有限公司

融资阶段:

公司规模:20~99人

相似职位: