工作内容岗位职责:
1. 负责公司业务相关数据爬取任务的需求分析、设计、开发及维护;
2. 开发高效稳定的网页爬虫,解决反爬机制,确保数据抓取的完整性及实时性;
3. 提取、清洗和处理抓取到的网页数据,将其存储至数据库;
4. 定期升级优化爬虫程序,提升抓取效率,扩展抓取种类;
5. 确保数据采集的合法性和合规性,与法律法规保持一致;
6. 配合数据清洗和分析团队,提供抓取的原始数据支持。
任职要求岗位要求:
1. 本科及以上学历,计算机相关专业优先考虑;
2. 熟悉 Python 编程语言,精通爬虫框架;
3. 熟悉浏览器模拟、动态网页抓取相关技术,如 Selenium、Pyppeteer 等;
4. 对反爬机制有较为深入的理解,熟悉常见的反爬处理手段(如验证码识别、代理池、多线程抓取等);
5. 熟练使用 MySQL 或 NoSQL 数据库(如 MongoDB、Redis 等),能够独立完成数据的存储和管理;
6. 对数据清洗及结构化处理有一定的基础;
7. 有较强的编码能力、问题解决能力,以及良好的代码规范意识;
8. 有完整的爬虫项目经验或协作案例者优先。
加分项:
1. 有分布式爬虫开发经验者优先;
2. 对 NLP、数据挖掘感兴趣或有经验者优先;
3. 了解或熟悉云服务器相关部署技巧者优先
慧博云通科技股份有限公司(股票简称:慧博云通 代码:301316)成立于2009年,是一家专注于软件信息技术服务的国家高新技术企业。总部位于杭州,业务遍布全球,为IT、通信、互联网、金融、汽车等多个行业领域的客户提供专业技术服务。慧博云通矢志成为一家国际化、专业化、创新型的软件技术服务企业,持续为客户创造价值。