数据采集工程师

岗位名称:数据采集工程师

【岗位职责】

1、负责多平台信息的数据采集、抽取、去重、分类、垃圾过滤、质量识别等工作;

2、研究数据采集策略和防屏蔽规则,解决JS逆向、封账号、封IP、验证码、滑块等难点,持续优化采集的效率和质量;

3、关注数据质量,建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善;

4、负责数据采集系统的架构设计和开发,对平台进行持续改进和提升。

【岗位要求】

1、本科及以上学历,计算机相关专业,三年以上大规模数据采集经验;

2、熟练掌握Python语言或JAVA语言,熟练掌握JS语言、有APP数据采集经验者优先;

3、精通数据采集技术,熟悉HttpClient/jsoup/XPath/CSS/正则表达式/验证码加密处理/代理池等网页信息抽取技术,熟悉HTTP底层协议;

4、精通各种反爬技术,并能够通过多种应对策略(如代理池、模拟登录、验证码与滑块的处理、浏览器渲染等)来保证数据的持续交付;

5、熟悉网页数据采集原理及技术,熟悉基于Cookie的网站登录原理;

6、熟悉数据清洗、去重、入库等技术,具有数据挖掘、机器学习背景者优先;

7、良好的编码能力,工作认真细致踏实,逻辑思维缜密,善于分析,以解决技术难题为乐趣,具备良好的沟通交流能力。

8、需要具备难度较高的知名数据源的数据采集项目经验。

公司地点:北京昌平区中科创新云基地3层302-308

公司简介:

职位发布者:陆先生

北京慧聪云信大数据科技有限公司

融资阶段:

公司规模:

相似职位: