岗位职责
1. 参与爬虫项目的研发、编程工作,改进和提升爬虫效率
2. 设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量
3. 建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善
4. 解决常见的反爬虫问题
5. 熟悉采集系统的调度策略,以及爬虫数据库存储设计
任职要求
1. 5年以上爬虫相关经验,有扎实的算法和数据结构能力,精通python,熟悉爬虫原理,熟悉常见的反爬虫技术
2. 熟悉web,搭监控平台以及数据展示后台;
3. 熟悉js逆向,懂得理解反爬逻辑,熟悉爬虫数据的分布式存储设计及代码实现
4. 精通scrapy等爬虫框架,对分布式爬虫、海量数据采集有深刻理解
5. 有解决复杂的反爬限制实践经验,能解决如图片验证码/滑块/账号限制/ip限制/动态js数据解析/加密数据破解/app逆向等问题