岗位职责:
1、熟练使用Python高效、可靠的开发网络爬虫程序,在不同数据源抓取信息。
2、使用相关的库和工具,如Beautiful Soup、Scrapy等,解析和处理网页内容,从HTML结构中提取所需数据。
3、对抓取数据进行清洗、转换和整理,确保数据质量。
4、理解网站的反爬虫机制,开发应对策略,确保持续稳定地抓取数据。
5、实现自动化的爬取任务调度,定时触发爬虫程序,确保数据的及时更新和同步。
6、领导安排的其他工作。
技能要求:
1、精通Python语言,熟练使用mysql等主流数据库。
2、熟悉相关的库和框架,如Requests、Beautiful Soup、Scrapy等,用于网络请求、网页解析和爬虫开发。
3、理解HTTP、HTTPS等网络协议,了解Cookie、Session、User-Agent等HTTP头的作用。
4、了解常见的反爬虫机制,能够应对IP封禁、验证码、User-Agent检测等问题。
5、熟悉服务器,能够在Linux环境下进行开发和部署,熟悉基本的命令行操作。
6、具有相关爬虫经验优先,本科及以上学历,懂java开发者优先。