爬虫工程师

岗位职责

1.设计和开发高效网络爬虫系统,用于抓取和分析数据。

2.负责网页信息数据的抽取、清洗、去重等工作,提升平台的抓取效率。

3.参与爬虫核心算法和策略优化,熟悉采集系统的调度策略。

4.实时监控爬虫的进度和警报反馈,确保爬虫的稳定性和可靠性。

5.跟踪最新的网络爬虫技术和算法,提升爬虫的效率和准确性。

6.遵守数据采集的法律法规,确保数据采集的合法性和合规性。

任职要求:

1.计算机科学、信息技术、数学或相关领域的学历背景。

2.有网络爬虫开发经验,熟悉爬虫的工作原理和实现技术。

3.熟练掌握Python或Java等编程语言,有良好的编程习惯。

4.了解网页结构,熟悉HTML、CSS和JavaScript。

5.熟悉数据库操作,有使用MySQL、MongoDB等数据库的经验。

6.对数据敏感,具备良好的数据分析能力和问题解决能力。

7.具备良好的学习能力、团队合作精神和沟通能力。

8.了解常用的解析技术,如正则表达式、XPath、CSS选择器、JSON解析等。

9.熟悉数据库和SQL,至少熟悉一种数据库系统,并能够使用SQL语言进行数据的存储和检索。

10.了解常见的反爬虫技术和应对策略,如代理IP、请求头伪装、验证码识别等。

11.具备调试和故障排除的能力,熟悉调试工具和技术。

12.遵守相关的法律法规和道德准则,尊重网站的使用条款和robots.txt文件。

公司地点:北京丰台区京印国际中心11层

公司简介:

职位发布者:夏先生

领先未来科技集团有限公司

融资阶段:

公司规模:

相似职位: