岗位职责:
1. 负责各类信息源(Web 页面、API、App 等)的自动化数据采集、清洗与定期更新;
2. 设计并优化分布式爬虫系统架构,提高采集效率与稳定性;
3. 对目标网站的反爬策略(验证码、IP封禁、JS混淆、频控等)进行深入分析与突破;
4. 构建并维护高可用的代理池、验证码识别模块、行为模拟策略等反反爬机制;
5. 熟练处理 Web 页面中 HTML / DOM 结构及 JS 后渲染内容,掌握常见爬虫浏览器技术(如 puppeteer、playwright、selenium 等);
6. 参与 JS 加密算法逆向或 App 抓包及协议逆向,完成复杂数据源的还原;
7. 编写高质量、结构化的数据采集代码与采集脚本,输出可靠的结构化数据;
8. 与产品、算法、AI模型团队协作,持续提供关键数据支撑与更新。
任职要求:
1. 计算机或相关专业本科及以上学历,985 / 211 高校优先;
2. 至少熟练掌握一种主流编程语言(如 Python / JavaScript),具有扎实的编程能力;
3. 熟悉常见数据采集技术:如 requests、axios、playwright、puppeteer、selenium 等;
4. 熟悉 Web 技术原理,包括 HTTP 协议、DOM 结构、JS 渲染机制、前端数据加载逻辑等;
5. 有验证码识别、代理策略、动态页面处理等反爬经验;
6. 有 JavaScript 加密逆向、App 抓包 / 协议分析经验者优先;
7. 有实际项目中构建过 RPA 自动化工具或流程的经验者优先;
8. 英文阅读能力良好,能独立阅读英文技术文档、研究国外社区;
9. 对 AI、数据、智能自动化有强烈兴趣,愿意在智能数据采集方向长期发展;
10. 有责任心,执行力强,乐于钻研复杂问题,具备良好的团队协作与沟通能力。