岗位职责:
负责大规模数据采集系统的架构设计与开发,确保高可用性、高并发及稳定性;
优化爬虫策略,提升数据抓取效率,降低被封禁风险;
处理动态渲染页面(如JS加密、AJAX加载)、APP逆向、接口破解等复杂场景。
分析目标网站反爬机制,制定IP代理池、验证码破解等解决方案;
使用自动化工具(如Selenium、Pyppeteer)模拟用户行为,绕过反爬检测。
设计高效的数据清洗、去重、存储方案,支持结构化/非结构化数据入库;
撰写技术文档(爬虫设计、数据接口规范、反爬分析报告);
推动Bug修复与性能优化,保障数据采集的准确性与时效性。
岗位需求:
熟练解决js加密,如:webpack,ob,jsvmp。
验证码处理实战经验,如:滑块,图文,点选
对数据抓取全流程有实战架构经验,如:数据抓取,日志处理,程序告警