爬虫中级工程师

岗位职责:

1、设计并实现大规模网页数据的抓取、清洗及结构化、存储流程,保障数据质量与时效性;

2、熟悉反爬机制及应对策略,开发高可用的数据采集与清洗方案;

3、构建基于分布式框架(如Scrapy-Redis、Celery)的爬虫系统,提升并发性能与容错能力;

4、融合大数据组件(如Spark/PySpark)优化数据处理效率,支持实时、批量清洗与转换任务;

5、协同数据团队完成数据交付,驱动下游分析与应用。

任职要求:

必备能力:

1、精通Python及Scrapy框架,深入理解HTTP协议与动态页面渲染机制;

2、熟悉Java 或C++,对计算机底层原理有较深入了解;

3、掌握主流数据库(MySQL/MongoDB/Redis/HBase)和消息队列(Kafka/Pulsar);

4、具备分布式爬虫开发经验,熟悉任务调度与性能优化策略;

5、熟悉Spark进行大规模数据清洗,了解Ray/Dask等分布式计算框架。

项目经验:

1、5年以上工作经验,2年以上爬虫开发经验,主导过至少1个中大型爬虫项目落地;

2、有复杂反爬机制破解案例;

3、有Spark/Ray等大数据组件在爬虫任务中的实际应用经验。

加分项:

1、掌握JS逆向分析及浏览器自动化工具(如Selenium/Puppeteer);

2、熟悉容器化部署(Docker/Kubernetes);

3、在专有领域有数据采集经验。

公司地点:北京海淀区九坤投资(启迪科技大厦B座店)101

公司简介:

职位发布者:郝先生

九坤投资(北京)有限公司

融资阶段:

公司规模:

相似职位: