爬虫/数据采集/Python开发

工作内容：

1、负责爬取HTML页面所需数据，并对数据进行清洗、解析、归档、输出等；

2、负责开发分布式的网络爬虫，采集与爬取、调度、监控、自动化运行等并实时监控爬虫的进度和警报反馈，提升爬虫系统稳定性；

3、负责js渲染抓取，反爬虫策略研究，验证码识别等采集支撑。

任职资格

1、有扎实的Python基础，熟悉多线程编程环境，熟悉常见开源框架；

2、熟悉Scrapy、feapder等主流爬虫框架框架，能够解决封账号、封IP、验证码、网页限制爬取等问题（有资源对接者也行，资源需是合作过的）；

3、熟悉常见的反爬机制，并对反爬具有一定的应对措施策略且有一定研究，如协议破解、数据包破解等（有资源对接者也行）；

4、熟悉代理IP池、Headers认证和Cookie等

公司地点：郑州·管城回族区·郑州东站