爬虫开发工程师

工作内容岗位职责：

1. 负责公司业务相关数据爬取任务的需求分析、设计、开发及维护；

2. 开发高效稳定的网页爬虫，解决反爬机制，确保数据抓取的完整性及实时性；

3. 提取、清洗和处理抓取到的网页数据，将其存储至数据库；

4. 定期升级优化爬虫程序，提升抓取效率，扩展抓取种类；

5. 确保数据采集的合法性和合规性，与法律法规保持一致；

6. 配合数据清洗和分析团队，提供抓取的原始数据支持。

任职要求岗位要求：

1. 本科及以上学历，计算机相关专业优先考虑；

2. 熟悉 Python 编程语言，精通爬虫框架；

3. 熟悉浏览器模拟、动态网页抓取相关技术，如 Selenium、Pyppeteer 等；

4. 对反爬机制有较为深入的理解，熟悉常见的反爬处理手段（如验证码识别、代理池、多线程抓取等）；

5. 熟练使用 MySQL 或 NoSQL 数据库（如 MongoDB、Redis 等），能够独立完成数据的存储和管理；

6. 对数据清洗及结构化处理有一定的基础；

7. 有较强的编码能力、问题解决能力，以及良好的代码规范意识；

8. 有完整的爬虫项目经验或协作案例者优先。

加分项：

1. 有分布式爬虫开发经验者优先；

2. 对 NLP、数据挖掘感兴趣或有经验者优先；

3. 了解或熟悉云服务器相关部署技巧者优先

公司地点：北京海淀区上地·元中心小米科技

公司简介：

慧博云通科技股份有限公司（股票简称：慧博云通代码：301316）成立于2009年，是一家专注于软件信息技术服务的国家高新技术企业。总部位于杭州，业务遍布全球，为IT、通信、互联网、金融、汽车等多个行业领域的客户提供专业技术服务。慧博云通矢志成为一家国际化、专业化、创新型的软件技术服务企业，持续为客户创造价值。

爬虫开发工程师

公司地点：北京海淀区上地·元中心小米科技

公司简介：

职位发布者：程女士

融资阶段：已上市

公司规模：1000~9999人

相似职位：