爬虫工程师

岗位职责：

1.负责分布式爬虫系统的架构设计和开发；

2.负责网页、小程序和APP等渠道信息采集、清洗、去重等工作，不断提升多平台的数据采集效率；

3.负责监控爬虫及数据清洗项目执行情况，实时对项目风险、中断等问题及时处理。

4.负责爬虫团队项目及人员管理

5.参与研究并迭代商业决策相关算法，优化定价预测模型，持续提升定价系统的关键性能

任职要求：

1.本科及以上学历，2年以上爬虫开发经验，熟悉各类主流网站的爬取逻辑与反爬机制，具备完整爬虫项目的开发和维护经验；

2. 熟练掌握Python及常用爬虫框架（如Scrapy、Requests、Selenium等）；熟悉常见反爬策略（动态渲染、JS逆向、加密参数分析、验证码识别、代理池管理等）；

3.掌握多线程/协程编程；具备分布式爬虫架构经验（如Scrapy-Redis、消息队列 Kafka/Celery），能设计大规模采集方案，支持断点续爬、增量更新、去重优化；

4.熟练使用pandas/Numpy进行数据清洗、格式转换；

5.掌握关系型/非关系型数据库（如MySQL、PostgreSQL、MongoDB、Elasticsearch等）、缓存设计与ETL流程设计，能根据业务需求设计高效的数据存储结构和索引方案；

6.熟悉Linux环境及常见脚本工具，能独立进行服务部署与维护，有Docker容器化经验，了解CI/CD流程。

加分项：

1.有AI/机器学习相关算法经验；

2.熟悉RPA工具，能将采集与自动化流程结合；

3.在大型互联网公司、数据公司、舆情公司有过数据采集经验。

公司地点：上海青浦区LM虹桥世界中心L1号楼A幢606