国际网站Python爬虫

岗位职责:

负责设计、开发和维护高效、稳定的 Python 爬虫程序,针对国际合法公开网站进行数据采集工作。

研究目标国际网站的结构和反爬机制,制定合理的爬取策略,确保爬取过程的顺畅与合规,解决爬取过程中遇到的各类技术问题,如 IP 封锁、验证码识别等。

对爬取到的数据进行清洗、整理和存储,保证数据的准确性、完整性和安全性。

与团队成员紧密协作,根据业务需求,及时调整爬虫策略和数据采集范围,为业务决策提供数据支持。

关注国际数据相关法律法规及目标网站的 Robots 协议,确保爬虫工作严格遵守相关规定,规避法律风险。

任职要求:

本科及以上学历,计算机相关专业,[5] 年以上 Python 爬虫开发经验,具备丰富的国际合法公开网站爬取经验。

熟练掌握 Python 编程语言,精通 Scrapy、PySpider 等主流爬虫框架,以及 Requests、BeautifulSoup、Selenium 等相关库的使用。

熟悉 HTTP/HTTPS 协议,了解常见的网络请求方式和数据传输格式,如 JSON、XML 等。

具备良好的反爬技术应对能力,熟悉代理 IP、Cookie 池、User-Agent 伪装等反爬策略的实现。

熟悉至少一种数据库,如 MySQL、MongoDB 等,能够熟练进行数据的存储和查询操作。

了解国际数据相关法律法规(如欧盟 GDPR、美国 CFAA 等)以及目标网站的 Robots 协议,有数据合规处理意识和经验。

具备良好的问题分析和解决能力、沟通协调能力以及团队合作精神,工作积极主动,有责任心。

薪资面议。

本公司坚决遵守国家法律法规及国际相关规定,仅接受通过合法途径(如官方 API、公开授权接口等)进行国际网站数据获取的经验。

应聘者需确保所提供的项目经验真实、合法,面试过程中我们将对相关细节进行核实。

入职后,员工需严格按照公司规定和相关法律法规开展爬虫工作,公司会提供必要的资源和支持以保障工作的合规性。

期待您的加入,与我们一起在合法合规的前提下,挖掘数据的价值,共创美好未来!

公司地点:上海青浦区上海华民经济城

公司简介:

职位发布者:唐经理

上海易安航空票务服务有限公司

融资阶段:

公司规模:

相似职位: