岗位职责
1、负责公司数据源抓取需求、满足公司对多源数据采集要求;
2、实现大规模数据的抓取、抽取、去重、分类、垃圾过滤、质量识别、解析入库等工作;
3、研究优化算法、提升爬虫系统的稳定性、可扩展性 ;
4、能独立解决实际开发过程碰到的各类问题 。
任职要求:
1、本科以上学历、2年以上爬虫开发相关经验、熟练使用Python进行开发;
2、熟练使用正则表达式、css path、xpath等、能够从结构化的和非结构化的数据中获取信息;
3、熟悉各种抓取技术、包括代理、PhantomJSselenium、验证码处理; 4、精通一种开源爬框架、如scrapy、webmagic、nutch、heritrix等;
5、熟悉各种反爬虫技术及其应对措施、有分布式爬虫架构经验优先;
6、具有良好的团队协作精神、思维清晰敏捷、逻辑分析能力强。