岗位职责:
1、负责网络爬虫系统平台的架构涉及与开发(如抓取调度,多样化抓取,页面解析和结构化抽取),技术选型;
2、研究爬虫策略和防屏蔽规则,解决封账号,封IP,验证码,混淆加密,页面跳转等难点攻克,提升网页抓取效率和质量。
任职要求:
1、对各种js加密有一定的的破解能力,以及有一定验证码破解技术;
2、对国内外PC或APP端各种网页参数加密有一定逆向能力 ;
3、熟悉web框架中的一种,并对其有一定的运用 ;
4、熟悉协程、多线程、多进程等模块,熟悉 Scrapy或其他爬虫框架 ;
5、使用seleniu、等一些列自动化技术;
6、熟悉rabbitmq、celery ,了解airflow框架架构体系(加分项);
上班时间: 上午 9:30-12:00; 下午 1:30-7:00;