爬虫工程师/3D打印

岗位职责:

1、对网站、app进行数据抓取、解析数据结构、数据清洗、入库等工作;

2、设计分布式网络爬虫系统,优化数据采集效率,解决高并发、海量数据存储问题;

3、破解平台反爬机制(如IP封禁、验证码、动态加密参数、Hcaptcha、数字计算、真人校验等),研究各种反爬机制及其应对措施,监控爬虫运行状态,及时修复因平台策略更新导致的失效问题;

4、负责对新产品或新技术进行技术研究,包含不限于AI采集框架、自动化采集等;

5、参与大规模数据处理流程的设计与开发,包括但不限于数据采集、清洗、转换、存储等过程。与数据分析师、算法工程师协作,支持内容推荐、竞品分析、用户画像等业务需求;

岗位要求:

1、熟悉爬虫原理,熟悉常见的反爬虫技术、逆向技术,熟悉常用爬虫架构;

2、有分布式爬虫、实时爬虫系统设计经验;

3、擅长各类爬虫分析策略设定和防屏蔽规则设计,熟悉爬虫IP管理池、分布式爬虫设计机制,对于爬虫效率和质量的控制具备一定的经验;能解决如图片验证码/滑块/账号限制/ip限制等实际问题;

4、熟练掌握mysql、PostgreSql数据库设计和开发经验,熟悉redis, mongodb,hdfs,hbase等;

5、有APP逆向、拦截分析、JS解密等经验者加分。

公司地点:杭州西湖区华星发展大厦B座3楼

公司简介:

职位发布者:潘女士

浙江闪铸集团有限公司

融资阶段:

公司规模:100~499人

相似职位: