岗位职责
1、 负责行业数据采集与爬取、解析处理、入库及备份等数据日常工作
2、 负责相应信息的抽取、清洗、消重、匹配和结构化处理,保证数据质量与采集效率
3、 负责监控爬虫任务的运行状态与持续更新维护
4、 参与爬虫算法/反爬策略/代理IP优化研究及落地实施
5、 参与跟踪分析爬虫系统的技术缺陷,对策略架构做出合理地调整和改进
岗位要求
1、 本科及以上学历,计算机相关专业
2、 掌握基于正则表达式/Xpath/CSS/JSOUP/HTTP协议/JS 等的网页信息抽取技术
3、 熟悉 MySQL/Redis/Mongodb 等主流数据库
4、 熟练使用 Python/Java/Go/NodeJS 任一种开发语言,熟练使用相关爬虫框架
5、 熟悉常见的反爬虫策略,具有海量数据处理和分布式计算开发经验者优先
6、 有良好的沟通和学习能力、较强的团队协作能力以及快速解决问题的能力