岗位职责:
1、负责设计和开发通用爬虫系统,进行多平台信息的抓取、清洗和消重等工作;
2、负责实时监控爬虫的进度和警报反馈;
3、研究各种网站、链接的形态,发现它们的特点和规律;
4、解决技术疑难问题,包括反反爬、压力控制等,提升网页抓取的效率和质量。
任职资格:
1、熟悉Linux系统,精通python,熟练使用多线程,熟悉Scrapy等常用爬虫框架;
2、熟悉爬虫原理,掌握网页抓取原理及技术,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术;
3、熟悉常见的反爬虫技术,能够解决封账号、封IP、验证码识别、图像识别等问题;
4、有大规模数据提取、数据处理、分布式爬虫架构经验等经验者优先。
5、 有前端动态 JS 逆向工程经验优先;
6、有非逆向、非侵入式手机APP采集经验优先;