python爬虫工程师

职位描述:

1.负责设计和开发分布式网络爬虫系统,进行数据抓取和分析;

2.设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;

3.参与分布式爬虫和数据采集系统的架构设计和开发,快速响应业务变动;

4.负责网络数据抓取规划.定期爬取指定网站的数据;

5.参与数据层建设,专注于垂直领域数据爬取,进行多平台信息的抓取和分析;

6.实现数据提取.清洗.结构化.入库.统计分析等需求;

7.研究优化算法,提升爬虫系统的稳定性.可扩展性。

任职要求:

1.本科及以上学历,5年以上爬虫抓取采集相关工作经验,爬虫基础扎实;

2.熟练Python和常用的开源库,熟练使用Django/Flask等至少一种主流的web开发框架;

3.熟练Mysql,MongoDB,Redis,Es,队列等数据库的使用和优化;

4.对进程.线程.协程.异步.非阻塞有一定了解和使用;

5.熟练掌握爬虫主流框架Scrapy.Selenium.gocolly,webmagic等(深入了解其中一种);

6.熟悉应用IP代理池.Headers认证和Cookie等;

7.熟悉分布式爬虫,JS防护.混淆.逆向分析等技能,熟悉各种浏览器检测/反检测手段;

8.熟悉Python/Java/Go/C++其中一种语言,具备扎实的编码能力;

9.责任心强.工作积极.良好的服务意识.较强的工作适应能力,自我驱动;

10.加分项:逆向.分布式.数据分析.数据挖掘;有训练过自己的模型;github或者码云有相关开源项目;有海量代理池搭建经验;有采集政府网址经验优先考虑;

【晋升发展】

完善的职级晋升及薪酬体系,能者居上,能力优异者享受股权奖励

【公司福利】

1.除固定休假日享受外,另有10-20天带薪年休假;

2.完善的培训机制和员工晋级方案;

3.免费!的课程培训,不定时的直播公开课(大咖.网红云集)

4..全球化的客户管理系统和先进的销售工具支持

【培训空间&工作环境】

公司提供全方位的技能培训如:岗前培训.晋升培训.资格证培训等

【工作地址】

深圳市宝安区新桥街道上星社区上星中心路100号星河大厦606

深圳市南山区深圳湾生态科技园6栋506

公司地点:深圳南山区深圳湾科技生态园6栋南大堂506

公司简介:

职位发布者:孔经理

深圳启程智远网络科技有限公司

融资阶段:

公司规模:

相似职位: