高级爬虫python工程师

岗位职责:

1、负责设计和开发分布式爬虫和调度系统,爬虫核心算法和调度策略优化;

2、负责部分网站验证码破解和现有爬虫系统效率的提升;

3、负责网络数据抓取规划和数据链路规划、高效且稳定爬取指定网站的数据;

4、构建高可用性、高可扩展性的网络信息搜集平台;

5、优化现有数据清洗,数据提取,结构化,入库等过程;

6、深度思考并参与业务等数据瓶颈,并有效解决;

7、项目中遇到其他问题。

任职要求

1、计算机相关专业,python语言,三年以上爬虫经验;

2、有独立负责过爬虫平台搭建、爬虫系统处理经验,爬虫项目规划能力;

3、熟悉Scrapy、Pyspider、nutch、webmagic等主流爬虫框架使用,了解js引擎技术等优先考虑;

4、熟悉js逆向,混淆原理,js语法树,客户端常用签名算法等;

5、具备web挖掘等搜索引擎相关知识,有丰富的网络爬虫、网页去重、网页信息抽取的经验;

6、掌握网页抓取原理及技术,包括基于Cookie的登录管理,基于headless的采集,熟悉正则表达式、XPath、Jsoup等网页信息抽取技术;

7、熟悉Linux平台开发、常用操作及命令,良好的编码习惯,有独立思考的能力,善于解决问题;

8、具备较强的团队协作精神,工作责任心强,良好的沟通、理解和执行能力。

公司地点:石家庄·裕华区·谈固

公司简介:

职位发布者:李经理

中数智创科技有限公司

融资阶段:

公司规模:100~499人

相似职位: