岗位职责:
1、设计并开发网络爬虫系统,抓取互联网单语/双语/多语数据,实时监控爬虫的进度和警报反馈;
2、爬虫核心算法和策略优化,熟悉采集系统的调度策略;
3、参与构建语料库,单语/双语语料数据的清洗、加工、处理工作,为算法提供数据支持;
4、跟踪和调研最新爬虫技术热点,推进新技术在研发中使用。
岗位要求:
1、本科及以上学历,一年以上爬虫经验,精通Python语言,熟悉Java,精通前端脚本语言,具备扎实的编码能力;
2、熟悉主流爬虫/反爬虫技术,熟悉反爬封禁策略、数据抓包,并具备相关的实战经验;
3、熟悉mongodb, redis, mysql等至少一种数据库;
4、善于学习,自我驱动,良好的沟通能力。