岗位职责:
负责设计、开发和维护高效、稳定的 Python 爬虫程序,针对国际合法公开网站进行数据采集工作。
研究目标国际网站的结构和反爬机制,制定合理的爬取策略,确保爬取过程的顺畅与合规,解决爬取过程中遇到的各类技术问题,如 IP 封锁、验证码识别等。
对爬取到的数据进行清洗、整理和存储,保证数据的准确性、完整性和安全性。
与团队成员紧密协作,根据业务需求,及时调整爬虫策略和数据采集范围,为业务决策提供数据支持。
关注国际数据相关法律法规及目标网站的 Robots 协议,确保爬虫工作严格遵守相关规定,规避法律风险。
任职要求:
本科及以上学历,计算机相关专业,[5] 年以上 Python 爬虫开发经验,具备丰富的国际合法公开网站爬取经验。
熟练掌握 Python 编程语言,精通 Scrapy、PySpider 等主流爬虫框架,以及 Requests、BeautifulSoup、Selenium 等相关库的使用。
熟悉 HTTP/HTTPS 协议,了解常见的网络请求方式和数据传输格式,如 JSON、XML 等。
具备良好的反爬技术应对能力,熟悉代理 IP、Cookie 池、User-Agent 伪装等反爬策略的实现。
熟悉至少一种数据库,如 MySQL、MongoDB 等,能够熟练进行数据的存储和查询操作。
了解国际数据相关法律法规(如欧盟 GDPR、美国 CFAA 等)以及目标网站的 Robots 协议,有数据合规处理意识和经验。
具备良好的问题分析和解决能力、沟通协调能力以及团队合作精神,工作积极主动,有责任心。
薪资面议。
本公司坚决遵守国家法律法规及国际相关规定,仅接受通过合法途径(如官方 API、公开授权接口等)进行国际网站数据获取的经验。
应聘者需确保所提供的项目经验真实、合法,面试过程中我们将对相关细节进行核实。
入职后,员工需严格按照公司规定和相关法律法规开展爬虫工作,公司会提供必要的资源和支持以保障工作的合规性。
期待您的加入,与我们一起在合法合规的前提下,挖掘数据的价值,共创美好未来!