岗位职责:
1.负责网络数据采集工作,进行多平台信息的抓取和分析工作;
2.负责数据清洗,文本抽取,排重等工作;
3.负责分布式爬虫的开发及架构设计
4.参与在线服务数据平台的开发与维护;
任职要求:
1、2年以上爬虫开发经验,熟练使用Python、JS,有web爬虫的逆向破解采集经验
2、熟悉网页抓取原理及技术,熟悉正则表达式,从结构化的和非结构化的数据中获取信息:
3、有分布式爬虫架构,数据挖掘经验,至少接触过一种开源爬虫框架。
4、悉数据库编程,多线程,多进程,网络通信编程相关知识;
5、熟悉垂直领域爬虫开发经验优先。