岗位职责 1、负责公司数据源抓取需求、满足公司对多源数据采集要求; 2、实现大规模数据的抓取、抽取、去重、分类、垃圾过滤、质量识别、解析入库等工作; 3、研究优化算法、提升爬虫系统的稳定性、可扩展性 ; 4、能独立解决实际开发过程碰到的各类问题 。 任职要求: 1、本科以上学历、2年以上爬虫开发相关经验、熟练使用Python进行开发; 2、熟练使用正则表达式、css path、xpath等、能够从结构化的和非结构化的数据中获取信息; 3、熟悉各种抓取技术、包括代理、PhantomJSselenium、验证码处理; 4、精通一种开源爬框架、如scrapy、webmagic、nutch、heritrix等; 5、熟悉各种反爬虫技术及其应对措施、有分布式爬虫架构经验优先; 6、具有良好的团队协作精神、思维清晰敏捷、逻辑分析能力强。
济南槐荫区济南报业大厦B座9层
python爬虫、数据仓库开发工程师济南NaNPython5-8k12薪
北京课观教育科技有限公司