爬虫数据采集工程师

岗位职责：

1. 负责各类信息源（Web 页面、API、App 等）的自动化数据采集、清洗与定期更新；

2. 设计并优化分布式爬虫系统架构，提高采集效率与稳定性；

3. 对目标网站的反爬策略（验证码、IP封禁、JS混淆、频控等）进行深入分析与突破；

4. 构建并维护高可用的代理池、验证码识别模块、行为模拟策略等反反爬机制；

5. 熟练处理 Web 页面中 HTML / DOM 结构及 JS 后渲染内容，掌握常见爬虫浏览器技术（如 puppeteer、playwright、selenium 等）；

6. 参与 JS 加密算法逆向或 App 抓包及协议逆向，完成复杂数据源的还原；

7. 编写高质量、结构化的数据采集代码与采集脚本，输出可靠的结构化数据；

8. 与产品、算法、AI模型团队协作，持续提供关键数据支撑与更新。

任职要求：

1. 计算机或相关专业本科及以上学历，985 / 211 高校优先；

2. 至少熟练掌握一种主流编程语言（如 Python / JavaScript），具有扎实的编程能力；

3. 熟悉常见数据采集技术：如 requests、axios、playwright、puppeteer、selenium 等；

4. 熟悉 Web 技术原理，包括 HTTP 协议、DOM 结构、JS 渲染机制、前端数据加载逻辑等；

5. 有验证码识别、代理策略、动态页面处理等反爬经验；

6. 有 JavaScript 加密逆向、App 抓包 / 协议分析经验者优先；

7. 有实际项目中构建过 RPA 自动化工具或流程的经验者优先；

8. 英文阅读能力良好，能独立阅读英文技术文档、研究国外社区；

9. 对 AI、数据、智能自动化有强烈兴趣，愿意在智能数据采集方向长期发展；

10. 有责任心，执行力强，乐于钻研复杂问题，具备良好的团队协作与沟通能力。

公司地点：深圳南山区大冲国际中心40A