岗位职责:
1、对网站、app进行数据抓取、解析数据结构、数据清洗、入库等工作;
2、设计分布式网络爬虫系统,优化数据采集效率,解决高并发、海量数据存储问题;
3、破解平台反爬机制(如IP封禁、验证码、动态加密参数、Hcaptcha、数字计算、真人校验等),研究各种反爬机制及其应对措施,监控爬虫运行状态,及时修复因平台策略更新导致的失效问题;
4、负责对新产品或新技术进行技术研究,包含不限于AI采集框架、自动化采集等;
5、参与大规模数据处理流程的设计与开发,包括但不限于数据采集、清洗、转换、存储等过程。与数据分析师、算法工程师协作,支持内容推荐、竞品分析、用户画像等业务需求;
岗位要求:
1、熟悉爬虫原理,熟悉常见的反爬虫技术、逆向技术,熟悉常用爬虫架构;
2、有分布式爬虫、实时爬虫系统设计经验;
3、擅长各类爬虫分析策略设定和防屏蔽规则设计,熟悉爬虫IP管理池、分布式爬虫设计机制,对于爬虫效率和质量的控制具备一定的经验;能解决如图片验证码/滑块/账号限制/ip限制等实际问题;
4、熟练掌握mysql、PostgreSql数据库设计和开发经验,熟悉redis, mongodb,hdfs,hbase等;
5、有APP逆向、拦截分析、JS解密等经验者加分。