岗位职责
1.负责数据的采集,提取,清洗,入库以及日常维护等工作;
2.从非结构化页面里提取关键字段;形成高质量的数据输出;
3.实现对任务的定时调度,失败重试,数据校验等机制;
4.建立监控机制,实现任务状态,数据量等的监控与报警。
岗位要求
1.3-5年爬虫经验,熟悉爬虫原理,能够独立解决问题;
2.熟练掌握python,熟悉scrapy,Drissionpage等主流爬虫框架,
3.熟悉Redis、MySQL、MongoDB 等常见存储中间件;
4.熟练使用xpath,re,掌握异步IO编程优先;
5.有丰富的js逆向经验,能够解决复杂的验证码(滑块/点选);
6.有代理池搭建经验,容器化部署经验(如Docker)以及linux的基础运维经验。
7.有独立负责过中大型采集项目者或有丰富数据提取经验者优先。