岗位描述:
1.负责设计和开发高效、稳定的分布式网络爬虫系统,完成大规模数据采集任务;
2.分析目标网站结构及反爬机制,制定并优化爬取策略,解决封IP、验证码、动态加载等反爬问题;
3.维护和优化现有爬虫系统,提升爬取效率及数据质量;
4.参与数据清洗、存储及处理流程的设计与实现,确保数据的准确性和完整性;
5.跟踪行业技术动态,研究新型反爬技术与应对方案;
6.配合数据分析、算法团队提供数据支持,协助业务需求落地。
任职要求:
1.计算机相关专业本科及以上学历,5以上相关工作经验,具备优秀的理解力、执行力、沟通能力和团队协作能力,信息检索领域有技术管理经验者优先;
2.熟练掌握C++/Python/Go等开发语言之一,熟悉Linux开发,掌握数据结构、算法、软件工程、设计模式等专业知识;
3.熟悉常见爬虫框架如Scrapy、Selenium;
4.熟悉mysql/redis/mongodb、Docker等数据相关工具及组件,具备大数据架构和实时或离线数据研发能力,熟悉Hive,Kafka,Spark,Storm,Hbase,Flink等技术并有开发经验;
5.有分布式开发、独立项目开发、大数据及大规模内容获取经验;
6.善于学习前沿技术并快速应用,有分布式开发、信息检索等领域工作经验者优先。