数据采集工程师

一、岗位职责：

1、系统设计与开发

负责设计高可用、高并发的分布式爬虫系统架构，支撑海量数据采集需求。

开发核心爬虫框架，优化调度策略、去重机制、反爬对抗等关键技术模块。

2、反爬策略攻防

研究目标网站的反爬机制（如验证码、IP封禁、行为检测等），设计动态绕过方案。

3、性能与稳定性保障

监控爬虫系统运行状态，设计容错、灾备和自动化恢复机制。

优化爬取效率（如异步IO、并发控制、资源调度等），降低硬件成本。

4、数据治理

设计数据清洗、去重、存储方案，确保数据质量和一致性。

与数据团队协作，构建端到端的数据管道（采集→存储→分析）。

5、团队与技术引领

制定爬虫开发规范和技术选型（如Scrapy、Selenium、Playwright等）。

指导团队成员解决技术难题，推动技术创新和性能优化。

二、任职要求

1、技术能力：

精通Python语言，熟悉常用爬虫框架（Scrapy、PySpider等）。

深入理解HTTP/HTTPS协议、Web前端技术（HTML/JS渲染、Ajax动态加载等）。

熟悉分布式系统（如Celery、Kafka、Redis集群）和数据库优化（MySQL/MongoDB/Elasticsearch）。

掌握反爬对抗技术（如代理IP、UserAgent轮换、Selenium自动化等）。

有大规模数据采集（千万级/日）或复杂网站（如电商、社交平台）爬取经验者优先。

2、加分项：

熟悉浏览器渲染原理（Chrome DevTools Protocol、Headless Chrome）。

有机器学习应用于反爬破解的经验（如验证码识别）。

3、软技能：

强烈的责任心和抗压能力，能独立解决复杂问题。

良好的沟通能力，能协调产品、法务等部门规避合规风险。

公司地点：广州白云区棒谷科技股份有限公司3号楼