职位名称:电商数据爬虫开发工程师
薪资范围: 15-20K
工作地点: 北京(海淀区东升科技园)
经验要求: 5年左右爬虫开发经验
---
核心职责
1. 设计与开发高可用电商数据采集系统(商品/价格/评论/销量等)
2. 攻克主流电商平台反爬机制(验证码识别/IP代理池/行为模拟等)
3. 维护千万级结构化数据存储(MySQL/MongoDB/Elasticsearch)
4. 开发分布式爬虫架构(Scrapy-Redis/Celery)提升采集效率
5. 建立数据质量监控体系(断点续爬/异常报警/数据校验)
---
硬性要求
1. 5年专业爬虫开发经验,精通Python网络爬虫技术栈
2. 熟练掌握以下能力:
- 主流爬虫框架:Scrapy/Selenium/Playwright
- 反爬破解:IP代理服务(快代理/蘑菇代理)、验证码识别(商业/自研方案)
- 数据解析:XPath/JSONPath/正则表达式高效提取
3. 数据存储优化经验:
- MySQL分表存储设计
- MongoDB海量非结构化数据处理
4. 分布式系统实战:
- Redis任务队列管理
- 多节点协同采集方案
5. 熟悉Linux运维:
- 爬虫服务容器化部署(Docker)
- 日志监控(ELK基础应用)
---
优先条件
[必备项]
• 有大型电商平台(天猫/京东/拼多多/抖音电商)爬取实战经验
• 独立解决过动态渲染、指纹识别、请求加密等反爬技术难题
[加分项]
• 熟悉移动端数据采集(Appium/Charles抓包)
• 掌握数据清洗流程(Pandas/OpenRefine)
• 了解跨境电商平台(Amazon/eBay)数据规则
---
工作环境
- 每日采集目标:处理500万+级电商数据条目
- 技术栈:Python 3.10+ / Scrapy / Redis 7 / MySQL 8 / Prometheus监控
- 团队配置:与数据仓库工程师、商业分析团队协同
---