爬虫工程师

岗位职责

1.负责数据的采集，提取，清洗，入库以及日常维护等工作；

2.从非结构化页面里提取关键字段；形成高质量的数据输出；

3.实现对任务的定时调度，失败重试，数据校验等机制；

4.建立监控机制，实现任务状态，数据量等的监控与报警。

岗位要求

1.3-5年爬虫经验，熟悉爬虫原理，能够独立解决问题；

2.熟练掌握python，熟悉scrapy，Drissionpage等主流爬虫框架，

3.熟悉Redis、MySQL、MongoDB 等常见存储中间件；

4.熟练使用xpath，re，掌握异步IO编程优先；

5.有丰富的js逆向经验，能够解决复杂的验证码(滑块/点选)；

6.有代理池搭建经验，容器化部署经验(如Docker)以及linux的基础运维经验。

7.有独立负责过中大型采集项目者或有丰富数据提取经验者优先。

公司地点：杭州上城区佰富时代中心1幢13层1301