高级爬虫工程师

工作职责:

- 负责社交媒体平台(如 Twitter、Reddit、Instagram 等)的数据爬取与解析。

- 设计并实现高效、稳定、可扩展的爬虫系统,确保数据的实时性与完整性。

- 深入研究各类反爬机制,开发绕过验证码、限流、IP封禁等策略,提升爬虫成功率。

- 实现代理池、动态 UA、Cookies 管理、Session 维持等反爬解决方案。

- 提升爬虫性能,优化爬取速度、数据存储结构及请求并发模型。

- 与数据分析、产品团队合作,理解数据需求并提供高质量数据支持。

任职要求:

- 本科及以上学历,计算机、软件工程、数据科学等相关专业。

- 3 年以上爬虫开发经验,熟悉社交媒体数据采集,有推特数据抓取经验者优先。

- 精通 Python,熟练使用 Scrapy、Playwright、Selenium、Httpx、Requests 等爬虫框架与库。

- 熟悉反爬策略,包括但不限于代理池、IP轮换、验证码识别、动态加载页面解析、JavaScript 渲染页面抓取等。

- 有丰富的绕过网页限制经验,掌握如浏览器指纹、Cookies 仿真、Session 维持、前端加密破解等技术。

- 熟悉异步编程、多进程、分布式爬虫架构,具备大规模数据爬取与存储经验。

- 熟悉常用数据存储解决方案,如 MongoDB、Redis、Elasticsearch、PostgreSQL 等。

- 优秀的分析问题与解决问题能力,具备良好的团队协作精神与沟通能力。

加分项:

- 有真实项目中成功突破复杂反爬机制的案例。

- 熟悉云服务(如 AWS、GCP、阿里云)上的爬虫部署和自动化运维。

- 有使用 GraphQL、WebSockets 接口爬取数据经验。

- 熟悉分布式任务队列(如 Celery、RabbitMQ、Kafka 等)。

公司地点:上海虹口区上海白玉兰广场56F

公司简介:

职位发布者:汪先生

上海布沁网络科技有限公司

融资阶段:

公司规模:

相似职位: