岗位职责:
1、根据工作安排负责相关数据的自动化采集、抽取及清洗工作。
2、负责分析数据需求,快速确定数据采集方案并按时完成工作交付结果。
3、维护数据增量更新变动及修改,保证数据新鲜度及数据质量。
4、参与优化分布式采集框架,参与建设全流程自动化数据采集平台项目。
职位要求:
1、计算机相关专业
2、熟悉linux平台开发,docker容器部署
2、精通Python语言,精通常用的数据抽取方法
3、熟悉HTML、JS等前端技术,熟悉HTTP,TCP/IP协议
4、熟悉JS逆向,代理IP,验证码等常见反爬技术
5、熟悉主流爬虫框架,理解分布式相关原理
6、熟练使用常用的数据库mongo, mysql, redis
7、团队精神,积极主动,自我驱动