数据采集开发工程师
岗位职责:
1、参与数据团队数据采集平台架构设计和开发工作。
2、负责设计和开发分布式网络爬虫系统、技术选型。
3、持续对系统进行架构改造和优化,提升系统的稳定性与可扩展性,保障系统稳定,高效,安全。
4、负责多平台信息(视频、音频、图片、文章等)爬取,包括APP端采集,agent相关数据采集等。
岗位要求:
1、本科及以上学历,计算机相关专业。3年及以上网络爬虫相关、采集平台、rpa相关开发经验。
2、熟练掌握Python编程语言及常用采集框架,深入了解框架提供的特性及其实现原理细节。
3、熟练掌握PC/Android自动化采集技术,如playwright,selenium、dirssionpage等。
4、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,页面跳转等难点攻克,提升网页抓取的效率和质量。
5、熟悉风控逆向相关技术,国内外验证码破解等;熟悉如何TLS 指纹、逆向、混淆、JS补环境等技术,以及各类加密算法,譬如(AES、RSA、Base64,Md5、SHA 系列等)。
6、具有良好的沟通能力、学习能力、分析解决问题能力,有较强的责任心、自驱力和成长型思维;
7、有长期规模化采集系统建设经验优先;有国外人机验证码破解经验优先;有computer use/phone use等agent相关数据采集经验优先。