爬虫开发工程师

工作内容岗位职责:

1. 负责公司业务相关数据爬取任务的需求分析、设计、开发及维护;

2. 开发高效稳定的网页爬虫,解决反爬机制,确保数据抓取的完整性及实时性;

3. 提取、清洗和处理抓取到的网页数据,将其存储至数据库;

4. 定期升级优化爬虫程序,提升抓取效率,扩展抓取种类;

5. 确保数据采集的合法性和合规性,与法律法规保持一致;

6. 配合数据清洗和分析团队,提供抓取的原始数据支持。

任职要求岗位要求:

1. 本科及以上学历,计算机相关专业优先考虑;

2. 熟悉 Python 编程语言,精通爬虫框架;

3. 熟悉浏览器模拟、动态网页抓取相关技术,如 Selenium、Pyppeteer 等;

4. 对反爬机制有较为深入的理解,熟悉常见的反爬处理手段(如验证码识别、代理池、多线程抓取等);

5. 熟练使用 MySQL 或 NoSQL 数据库(如 MongoDB、Redis 等),能够独立完成数据的存储和管理;

6. 对数据清洗及结构化处理有一定的基础;

7. 有较强的编码能力、问题解决能力,以及良好的代码规范意识;

8. 有完整的爬虫项目经验或协作案例者优先。

加分项:

1. 有分布式爬虫开发经验者优先;

2. 对 NLP、数据挖掘感兴趣或有经验者优先;

3. 了解或熟悉云服务器相关部署技巧者优先

公司地点:北京海淀区上地·元中心小米科技

公司简介:

慧博云通科技股份有限公司(股票简称:慧博云通 代码:301316)成立于2009年,是一家专注于软件信息技术服务的国家高新技术企业。总部位于杭州,业务遍布全球,为IT、通信、互联网、金融、汽车等多个行业领域的客户提供专业技术服务。慧博云通矢志成为一家国际化、专业化、创新型的软件技术服务企业,持续为客户创造价值。

职位发布者:程女士

慧博云通科技股份有限公司

融资阶段:已上市

公司规模:1000~9999人

相似职位: