高级爬虫工程师

岗位描述

1.负责多平台信息爬取和页面内容的提取分析；

2.研究各种网站、网页、链接的形态，发现它们的特点和规律；

3.解决技术疑难问题，包括反反爬、压力控制等；

4.设计各种策略和算法，提升抓取效果；充分利用带宽资源，避免限制，

5.参与搭建通用爬虫系统。

岗位要求

1.计算机及相关专业，本科以上学历（特别优秀可放宽至大专）3年以上相关工作经验；

2.精通计算机网络，熟练掌握Python，HTML，JS/CSS等技术，熟悉Scrapy、Selenuim框架或其他的Web scraping framework；

3.精通网页抓取原理及技术，有丰富的Linux系统使用经验，熟悉MySQL、Redis等，熟悉Internet基本协议（如TCP/IP，HTTP等）；

4.能够解决封账号、封IP采集、验证码识别、图像识别等问题,解决网页抓取、信息抽取等问题,构建完善的网络信息收集平台；

5. 掌握数据分析流程，擅长数据采集、清洗、分析等环节；

6.有分布式爬虫架构经验者优先，有反爬虫反反爬虫经验者优先；

公司地点：北京西城区祥龙商务大厦2号楼5层