爬虫工程师(电商AI方向)

职位名称:电商数据爬虫开发工程师

薪资范围:​ 15-20K

工作地点:​ 北京(海淀区东升科技园)

经验要求:​ 5年左右爬虫开发经验

---

核心职责

1. 设计与开发高可用电商数据采集系统(商品/价格/评论/销量等)

2. 攻克主流电商平台反爬机制(验证码识别/IP代理池/行为模拟等)

3. 维护千万级结构化数据存储(MySQL/MongoDB/Elasticsearch)

4. 开发分布式爬虫架构(Scrapy-Redis/Celery)提升采集效率

5. 建立数据质量监控体系(断点续爬/异常报警/数据校验)

---

硬性要求

1. 5年专业爬虫开发经验​,精通Python网络爬虫技术栈

2. 熟练掌握以下能力:

- 主流爬虫框架:Scrapy/Selenium/Playwright

- 反爬破解:IP代理服务(快代理/蘑菇代理)、验证码识别(商业/自研方案)

- 数据解析:XPath/JSONPath/正则表达式高效提取

3. 数据存储优化经验:

- MySQL分表存储设计

- MongoDB海量非结构化数据处理

4. 分布式系统实战:

- Redis任务队列管理

- 多节点协同采集方案

5. 熟悉Linux运维:

- 爬虫服务容器化部署(Docker)

- 日志监控(ELK基础应用)

---

优先条件

[必备项]

• 有大型电商平台(天猫/京东/拼多多/抖音电商)爬取实战经验

• 独立解决过动态渲染、指纹识别、请求加密等反爬技术难题

[加分项]

• 熟悉移动端数据采集(Appium/Charles抓包)

• 掌握数据清洗流程(Pandas/OpenRefine)

• 了解跨境电商平台(Amazon/eBay)数据规则

---

工作环境

- 每日采集目标:处理500万+级电商数据条目

- 技术栈:Python 3.10+ / Scrapy / Redis 7 / MySQL 8 / Prometheus监控

- 团队配置:与数据仓库工程师、商业分析团队协同

---

公司地点:北京海淀区中关村东升科技园一期北领地B-2号楼B13

公司简介:

职位发布者:万女士

新略数智(杭州)科技有限公司

融资阶段:

公司规模:

相似职位: