岗位前置语:
1、科技型创业公司,小天花板级技术团队,事密则成。
2、接受线上、线下Part-time,结果导向,不拘泥于形式。
3、未来定位为一家以技术驱动业务的科技独角兽。
职位描述:
1、遵循robots协议,参与爬虫系统的建设与优化,满足各类业务数据需求;
2、负责分布式爬虫系统的建设,优化数据调度、抓取、解析、存储全栈流程;
3、帮助团队攻克网页信息抽取技术算法的难关,提升海量数据系统的抓取效果与性能。
4、关注最新数据挖掘、抓取技术,不断维护和优化现有爬虫框架,确保抓取的高效和稳定性。
职位要求:
1、本科或研究生以上学历,3-5年爬虫抓取采集相关工作经历;
2、熟悉主流爬取技术及爬虫框架工具,如Selenium/Puppeteer/Scrapy/PhantomJS等;
3、熟悉Python/Java/Go/C++其中一种语言,具备扎实的编码能力;
4、熟悉常见反爬封禁策略,并具备相关的实战经验。
加分项:
有产业链数据相关经验者优先考虑。
有大模型应用开发相关经验者优先考虑。
熟悉分布式爬虫框架(如StormCrawler、Heritrix等)
有大数据相关技术(如Hadoop、Spark、Kafka)的使用经验