工作职责:
- 负责社交媒体平台(如 Twitter、Reddit、Instagram 等)的数据爬取与解析。
- 设计并实现高效、稳定、可扩展的爬虫系统,确保数据的实时性与完整性。
- 深入研究各类反爬机制,开发绕过验证码、限流、IP封禁等策略,提升爬虫成功率。
- 实现代理池、动态 UA、Cookies 管理、Session 维持等反爬解决方案。
- 提升爬虫性能,优化爬取速度、数据存储结构及请求并发模型。
- 与数据分析、产品团队合作,理解数据需求并提供高质量数据支持。
任职要求:
- 本科及以上学历,计算机、软件工程、数据科学等相关专业。
- 3 年以上爬虫开发经验,熟悉社交媒体数据采集,有推特数据抓取经验者优先。
- 精通 Python,熟练使用 Scrapy、Playwright、Selenium、Httpx、Requests 等爬虫框架与库。
- 熟悉反爬策略,包括但不限于代理池、IP轮换、验证码识别、动态加载页面解析、JavaScript 渲染页面抓取等。
- 有丰富的绕过网页限制经验,掌握如浏览器指纹、Cookies 仿真、Session 维持、前端加密破解等技术。
- 熟悉异步编程、多进程、分布式爬虫架构,具备大规模数据爬取与存储经验。
- 熟悉常用数据存储解决方案,如 MongoDB、Redis、Elasticsearch、PostgreSQL 等。
- 优秀的分析问题与解决问题能力,具备良好的团队协作精神与沟通能力。
加分项:
- 有真实项目中成功突破复杂反爬机制的案例。
- 熟悉云服务(如 AWS、GCP、阿里云)上的爬虫部署和自动化运维。
- 有使用 GraphQL、WebSockets 接口爬取数据经验。
- 熟悉分布式任务队列(如 Celery、RabbitMQ、Kafka 等)。