搜索引擎爬虫工程师

岗位描述：

1.负责设计和开发高效、稳定的分布式网络爬虫系统，完成大规模数据采集任务；

2.分析目标网站结构及反爬机制，制定并优化爬取策略，解决封IP、验证码、动态加载等反爬问题；

3.维护和优化现有爬虫系统，提升爬取效率及数据质量；

4.参与数据清洗、存储及处理流程的设计与实现，确保数据的准确性和完整性；

5.跟踪行业技术动态，研究新型反爬技术与应对方案；

6.配合数据分析、算法团队提供数据支持，协助业务需求落地。

任职要求：

1.计算机相关专业本科及以上学历，5以上相关工作经验，具备优秀的理解力、执行力、沟通能力和团队协作能力，信息检索领域有技术管理经验者优先；

2.熟练掌握C++/Python/Go等开发语言之一，熟悉Linux开发，掌握数据结构、算法、软件工程、设计模式等专业知识；

3.熟悉常见爬虫框架如Scrapy、Selenium；

4.熟悉mysql/redis/mongodb、Docker等数据相关工具及组件，具备大数据架构和实时或离线数据研发能力，熟悉Hive，Kafka，Spark，Storm，Hbase，Flink等技术并有开发经验；

5.有分布式开发、独立项目开发、大数据及大规模内容获取经验；

6.善于学习前沿技术并快速应用，有分布式开发、信息检索等领域工作经验者优先。

公司地点：上海徐汇区平安大厦A座(凯滨路)21楼