岗位职责:
1、负责多平台信息的抽取、去重、分类、解析、增量;
2、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
3、能独立解决实际开发过程碰到的各类问题;
4、熟练使用Redis、Mysql、mongodb等流行数据库技术;
5、有单日百万级数据量抓取,复杂验证码破解和自然语言处理等经验者优先。
任职要求:
1、统招本科及以上学历,计算机相关专业,有业务思维,熟悉Python开发,熟悉数据结构、算法、设计模式、http协议,有其他后端语言经验也可考虑;
2、熟悉Linux操作系统下的开发,部署,维护等工作;
3、熟悉mysql,调优mysql,了解mysql的一些运维相关操作;
4、熟悉hadoop、elasticsearch、Redis/pytorch 等工具的使用;
5、业务场景应用中有爬虫、反爬虫的工作经验或有大数据+电商平台爬取数据分析经验者优先。