爬虫工程师

岗位职责:

1.负责分布式爬虫系统的架构设计和开发;

2.负责网页、小程序和APP等渠道信息采集、清洗、去重等工作,不断提升多平台的数据采集效率;

3.负责监控爬虫及数据清洗项目执行情况,实时对项目风险、中断等问题及时处理。

4.负责爬虫团队项目及人员管理

5.参与研究并迭代商业决策相关算法,优化定价预测模型,持续提升定价系统的关键性能

任职要求:

1.本科及以上学历,2年以上爬虫开发经验,熟悉各类主流网站的爬取逻辑与反爬机制,具备完整爬虫项目的开发和维护经验;

2. 熟练掌握Python及常用爬虫框架(如Scrapy、Requests、Selenium等);熟悉常见反爬策略(动态渲染、JS逆向、加密参数分析、验证码识别、代理池管理等);

3.掌握多线程/协程编程;具备分布式爬虫架构经验(如Scrapy-Redis、消息队列 Kafka/Celery),能设计大规模采集方案,支持断点续爬、增量更新、去重优化;

4.熟练使用pandas/Numpy进行数据清洗、格式转换;

5.掌握关系型/非关系型数据库(如MySQL、PostgreSQL、MongoDB、Elasticsearch等)、缓存设计与ETL流程设计,能根据业务需求设计高效的数据存储结构和索引方案;

6.熟悉Linux环境及常见脚本工具,能独立进行服务部署与维护,有Docker容器化经验,了解CI/CD流程。

加分项:

1.有AI/机器学习相关算法经验;

2.熟悉RPA工具,能将采集与自动化流程结合;

3.在大型互联网公司、数据公司、舆情公司有过数据采集经验。

公司地点:上海青浦区LM虹桥世界中心L1号楼A幢606

公司简介:

职位发布者:江先生

上海芯化和云数据科技有限公司

融资阶段:

公司规模:

相似职位: