国际网站Python爬虫

岗位职责：

负责设计、开发和维护高效、稳定的 Python 爬虫程序，针对国际合法公开网站进行数据采集工作。

研究目标国际网站的结构和反爬机制，制定合理的爬取策略，确保爬取过程的顺畅与合规，解决爬取过程中遇到的各类技术问题，如 IP 封锁、验证码识别等。

对爬取到的数据进行清洗、整理和存储，保证数据的准确性、完整性和安全性。

与团队成员紧密协作，根据业务需求，及时调整爬虫策略和数据采集范围，为业务决策提供数据支持。

关注国际数据相关法律法规及目标网站的 Robots 协议，确保爬虫工作严格遵守相关规定，规避法律风险。

任职要求：

本科及以上学历，计算机相关专业，[5] 年以上 Python 爬虫开发经验，具备丰富的国际合法公开网站爬取经验。

熟练掌握 Python 编程语言，精通 Scrapy、PySpider 等主流爬虫框架，以及 Requests、BeautifulSoup、Selenium 等相关库的使用。

熟悉 HTTP/HTTPS 协议，了解常见的网络请求方式和数据传输格式，如 JSON、XML 等。

具备良好的反爬技术应对能力，熟悉代理 IP、Cookie 池、User-Agent 伪装等反爬策略的实现。

熟悉至少一种数据库，如 MySQL、MongoDB 等，能够熟练进行数据的存储和查询操作。

了解国际数据相关法律法规（如欧盟 GDPR、美国 CFAA 等）以及目标网站的 Robots 协议，有数据合规处理意识和经验。

具备良好的问题分析和解决能力、沟通协调能力以及团队合作精神，工作积极主动，有责任心。

薪资面议。

本公司坚决遵守国家法律法规及国际相关规定，仅接受通过合法途径（如官方 API、公开授权接口等）进行国际网站数据获取的经验。

应聘者需确保所提供的项目经验真实、合法，面试过程中我们将对相关细节进行核实。

入职后，员工需严格按照公司规定和相关法律法规开展爬虫工作，公司会提供必要的资源和支持以保障工作的合规性。

期待您的加入，与我们一起在合法合规的前提下，挖掘数据的价值，共创美好未来！

公司地点：上海青浦区上海华民经济城