高级爬虫工程师

岗位职责:
1、 负责网络爬虫系统平台的技术选型、架构设计与开发,涉及调度策略/多样化抓取/页面解析和结构化抽取等
2、 负责爬虫算法/反爬策略/代理IP优化研究及落地实施,提高采集效率、数据更新及时性
3、 负责数据清洗、消重、匹配、结构化存及质量识别与垃圾过滤等,并持续优化,保证数据质量
4、 负责参照数据体系,整理底层各种结构化和非结构化数据源,进行标准化清洗和建模,建立数据标准化
5、 负责持续跟踪分析爬虫系统的技术缺陷,对策略架构做出合理地调整和改进,提升公司相关产品与服务的竞争力
岗位要求:
1、 本科及以上学历,计算机相关专业,2年以上爬虫经验
2、 熟练使用基于正则表达式/Xpath/CSS/JSOUP/HTTP协议/JS等的网页信息抽取技术
3、 熟悉 Linux 平台,掌握 Python/Java/Go/NodeJS 开发语言,熟悉 MySQL/Redis/Mongodb 等常见数据库
4、 熟练使用常见爬虫框架,具有一定的反爬分析对抗能力
5、 有较优秀的学习能力与发现、系统性分析并解决问题的能力,较强的团队协作能力
6、 熟悉爬虫的设计及实现流程,具有分布式爬虫、数据挖掘、自然语言处理、信息检索、机器学习背景者优先

公司地点:长春·绿园区·吾悦广场

公司简介:

职位发布者:沈女士

吉林能者科技有限公司

融资阶段:

公司规模:20~99人

相似职位: