【岗位职责】
1、负责分布式网络爬虫系统及相应数据库的设计与开发;
2、负责爬虫核心算法的策略优化研究,设计爬虫策略和防屏蔽规则,充分利用资源,提升多媒体数据抓取的效率和质量;
3、负责数据平台建设,数据清洗、处理,提供数据服务以及数据管理;
4、分析、理解大数据业务需求,设计技术方案并落地实施;
5、处理各个业务在使用数据平台过程中的各种问题,分析并给出优化方案;
【任职要求】
1、第一学历为本科及以上;
2、过往工作履历中无任何外包经历;
3、3年以上Python语言爬虫经验,过往有从事过抖音视频/快手视频/小红书等任一个平台的数据抓取工作;
4、有web逆向经验,掌握web常见的反爬机制,精通各种反爬破解,包括但不限于: hook、Js防护、混淆、逆向分析、App防破解、防逆向、加固技术等技能;
5、熟练掌握http协议,xpath、csspath、正则表达式;
6、有自己开发算法或者利用第三方技术处理自动通过验证码经验;
7、能熟练使用python操作MySQL,MongoDB,Redis等数据库和常见的消息队列,比如RabbitMQ,Kafka等;
8、第一学历背景211及以上优先;