岗位职责:
1.负责分布式爬虫系统的架构设计和开发;
2.负责网页、小程序和APP等渠道信息采集、清洗、去重等工作,不断提升多平台的数据采集效率;
3.负责监控爬虫及数据清洗项目执行情况,实时对项目风险、中断等问题及时处理。
4.负责爬虫团队项目及人员管理
5.参与研究并迭代商业决策相关算法,优化定价预测模型,持续提升定价系统的关键性能
任职要求:
1.本科及以上学历,2年以上爬虫开发经验,熟悉各类主流网站的爬取逻辑与反爬机制,具备完整爬虫项目的开发和维护经验;
2. 熟练掌握Python及常用爬虫框架(如Scrapy、Requests、Selenium等);熟悉常见反爬策略(动态渲染、JS逆向、加密参数分析、验证码识别、代理池管理等);
3.掌握多线程/协程编程;具备分布式爬虫架构经验(如Scrapy-Redis、消息队列 Kafka/Celery),能设计大规模采集方案,支持断点续爬、增量更新、去重优化;
4.熟练使用pandas/Numpy进行数据清洗、格式转换;
5.掌握关系型/非关系型数据库(如MySQL、PostgreSQL、MongoDB、Elasticsearch等)、缓存设计与ETL流程设计,能根据业务需求设计高效的数据存储结构和索引方案;
6.熟悉Linux环境及常见脚本工具,能独立进行服务部署与维护,有Docker容器化经验,了解CI/CD流程。
加分项:
1.有AI/机器学习相关算法经验;
2.熟悉RPA工具,能将采集与自动化流程结合;
3.在大型互联网公司、数据公司、舆情公司有过数据采集经验。