一、岗位职责:
1、系统设计与开发
负责设计高可用、高并发的分布式爬虫系统架构,支撑海量数据采集需求。
开发核心爬虫框架,优化调度策略、去重机制、反爬对抗等关键技术模块。
2、反爬策略攻防
研究目标网站的反爬机制(如验证码、IP封禁、行为检测等),设计动态绕过方案。
3、性能与稳定性保障
监控爬虫系统运行状态,设计容错、灾备和自动化恢复机制。
优化爬取效率(如异步IO、并发控制、资源调度等),降低硬件成本。
4、数据治理
设计数据清洗、去重、存储方案,确保数据质量和一致性。
与数据团队协作,构建端到端的数据管道(采集→存储→分析)。
5、团队与技术引领
制定爬虫开发规范和技术选型(如Scrapy、Selenium、Playwright等)。
指导团队成员解决技术难题,推动技术创新和性能优化。
二、任职要求
1、技术能力:
精通Python语言,熟悉常用爬虫框架(Scrapy、PySpider等)。
深入理解HTTP/HTTPS协议、Web前端技术(HTML/JS渲染、Ajax动态加载等)。
熟悉分布式系统(如Celery、Kafka、Redis集群)和数据库优化(MySQL/MongoDB/Elasticsearch)。
掌握反爬对抗技术(如代理IP、UserAgent轮换、Selenium自动化等)。
有大规模数据采集(千万级/日)或复杂网站(如电商、社交平台)爬取经验者优先。
2、加分项:
熟悉浏览器渲染原理(Chrome DevTools Protocol、Headless Chrome)。
有机器学习应用于反爬破解的经验(如验证码识别)。
3、软技能:
强烈的责任心和抗压能力,能独立解决复杂问题。
良好的沟通能力,能协调产品、法务等部门规避合规风险。