数据采集工程师

一、岗位职责:

1、系统设计与开发

负责设计高可用、高并发的分布式爬虫系统架构,支撑海量数据采集需求。

开发核心爬虫框架,优化调度策略、去重机制、反爬对抗等关键技术模块。

2、反爬策略攻防

研究目标网站的反爬机制(如验证码、IP封禁、行为检测等),设计动态绕过方案。

3、性能与稳定性保障

监控爬虫系统运行状态,设计容错、灾备和自动化恢复机制。

优化爬取效率(如异步IO、并发控制、资源调度等),降低硬件成本。

4、数据治理

设计数据清洗、去重、存储方案,确保数据质量和一致性。

与数据团队协作,构建端到端的数据管道(采集→存储→分析)。

5、团队与技术引领

制定爬虫开发规范和技术选型(如Scrapy、Selenium、Playwright等)。

指导团队成员解决技术难题,推动技术创新和性能优化。

二、任职要求

1、技术能力:

精通Python语言,熟悉常用爬虫框架(Scrapy、PySpider等)。

深入理解HTTP/HTTPS协议、Web前端技术(HTML/JS渲染、Ajax动态加载等)。

熟悉分布式系统(如Celery、Kafka、Redis集群)和数据库优化(MySQL/MongoDB/Elasticsearch)。

掌握反爬对抗技术(如代理IP、UserAgent轮换、Selenium自动化等)。

有大规模数据采集(千万级/日)或复杂网站(如电商、社交平台)爬取经验者优先。

2、加分项:

熟悉浏览器渲染原理(Chrome DevTools Protocol、Headless Chrome)。

有机器学习应用于反爬破解的经验(如验证码识别)。

3、软技能:

强烈的责任心和抗压能力,能独立解决复杂问题。

良好的沟通能力,能协调产品、法务等部门规避合规风险。

公司地点:广州白云区棒谷科技股份有限公司3号楼

公司简介:

职位发布者:谢女士

广州棒谷科技股份有限公司

融资阶段:

公司规模:

相似职位: