岗位描述
1.负责多平台信息爬取和页面内容的提取分析;
2.研究各种网站、网页、链接的形态,发现它们的特点和规律;
3.解决技术疑难问题,包括反反爬、压力控制等;
4.设计各种策略和算法,提升抓取效果;充分利用带宽资源,避免限制,
5.参与搭建通用爬虫系统。
岗位要求
1.计算机及相关专业,本科以上学历(特别优秀可放宽至大专)3年以上相关工作经验;
2.精通计算机网络,熟练掌握Python,HTML,JS/CSS等技术,熟悉Scrapy、Selenuim框架或其他的Web scraping framework;
3.精通网页抓取原理及技术,有丰富的Linux系统使用经验,熟悉MySQL、Redis等,熟悉Internet基本协议(如TCP/IP,HTTP等);
4.能够解决封账号、封IP采集、验证码识别、图像识别等问题,解决网页抓取、信息抽取等问题,构建完善的网络信息收集平台;
5. 掌握数据分析流程,擅长数据采集、清洗、分析等环节;
6.有分布式爬虫架构经验者优先,有反爬虫反反爬虫经验者优先;