工作职责:
1、遵循robots协议,负责开发分布式网络爬虫,负责网页数据抽取的技术的算法研究和开发,按业务要求提升采集的效率和质量;
2、负责互联网公开的游戏相关交易、社区APP或Web页业务相关的数据采集,并通过迭代不断优化效率(调度、并发、覆盖率);
3、熟悉结构化存储、分布式系统的使用,负责数据处理、数据格式化、数据存储、数据检索代码的编写,负责日常迭代优化和维护;
4、负责对站内外数据清洗、预处理、格式化、结构化,配合算法工程师完成数据标注,以及算法相关的后期数据的优化处理;
职位描述:
1、5年及以上的Python、go、C++大数据开发经验,扎实的编程和调试能力,在站外数据采集、数据挖掘处理方面有丰富经验;
2、熟悉scrapy、selenium分布式爬虫框架,熟悉Spark、hadoop分布式系统使用,能独立完成高性能分布爬虫系统搭建,优化提升爬取效率;
3、熟悉redis、mongodb、mysql、Es等数据存储方案,对抓取的数据进行结构化存储,满足数据二次应用的高效检索;
4、熟悉Linux开发环境,熟悉ribbitmq等消息队列,可独立承担数据清洗、格式化、结构化等处理,配合算法工程师,提高数据质量;
5、对挑战性的业务充满热情,具有较强的协作能力、抗压能力、求知欲,具有创新性思维;