高级爬虫工程师

工作职责：

- 负责社交媒体平台（如 Twitter、Reddit、Instagram 等）的数据爬取与解析。

- 设计并实现高效、稳定、可扩展的爬虫系统，确保数据的实时性与完整性。

- 深入研究各类反爬机制，开发绕过验证码、限流、IP封禁等策略，提升爬虫成功率。

- 实现代理池、动态 UA、Cookies 管理、Session 维持等反爬解决方案。

- 提升爬虫性能，优化爬取速度、数据存储结构及请求并发模型。

- 与数据分析、产品团队合作，理解数据需求并提供高质量数据支持。

任职要求：

- 本科及以上学历，计算机、软件工程、数据科学等相关专业。

- 3 年以上爬虫开发经验，熟悉社交媒体数据采集，有推特数据抓取经验者优先。

- 精通 Python，熟练使用 Scrapy、Playwright、Selenium、Httpx、Requests 等爬虫框架与库。

- 熟悉反爬策略，包括但不限于代理池、IP轮换、验证码识别、动态加载页面解析、JavaScript 渲染页面抓取等。

- 有丰富的绕过网页限制经验，掌握如浏览器指纹、Cookies 仿真、Session 维持、前端加密破解等技术。

- 熟悉异步编程、多进程、分布式爬虫架构，具备大规模数据爬取与存储经验。

- 熟悉常用数据存储解决方案，如 MongoDB、Redis、Elasticsearch、PostgreSQL 等。

- 优秀的分析问题与解决问题能力，具备良好的团队协作精神与沟通能力。

加分项：

- 有真实项目中成功突破复杂反爬机制的案例。

- 熟悉云服务（如 AWS、GCP、阿里云）上的爬虫部署和自动化运维。

- 有使用 GraphQL、WebSockets 接口爬取数据经验。

- 熟悉分布式任务队列（如 Celery、RabbitMQ、Kafka 等）。

公司地点：上海虹口区上海白玉兰广场56F