岗位职责:
1、熟悉和掌握电商平台数据的抓取和数据分析;
2、负责平台数据挖掘项目的开发、需求讨论、提供解决方案和意见;
3、根据平台页面结构变化,及时调整数据抓取方案;
4、搭建数据采集平台,通过对数据的抓取、解析、调度、存储等模块的拆分与优化,构建和完善统一的抓取服务平台;
5、参与项目相关技术设计和估算,确保任务进度,并且达到公司的质量和需求标准;
6、完成软件系统代码的实现,编写代码注释和开发文档,分析并解决软件开发过程中的问题;
7、与团队成员保持积极沟通,有良好的语言表达能力;
岗位要求
1、精通Python,熟悉python常用网络库, 精通主流python爬虫框架,如(Scrapy框架,splinter框架等),掌握的开发经验;
5、熟悉Mysql管理及Sql性能调试,有数据库设计经验、有良好的SQL语句习惯。了解MySQL的数据库配置管理、性能优化等基本操作技能;
6、有一定的架构设计能力,有很强的分析、解决问题的能力;
7、具备文档编写能力,拥有良好的代码习惯和语言组织能力。要求结构清晰,命名规范,逻辑性强,代码冗余率低;
8、有较强团队合作精神,有良好的敬业精神,富于创新精神,具有较强的沟通能力、学习能力;
9、拥有分布式爬虫、垂直网站抓取经验优先;分布式爬虫架构,有爬虫框架二次开发经验者优先 具有大规模网页爬虫开发经验,有大型C2C、B2C电商网站爬虫实践经验者优先
10、熟悉linux开发环境操作系统
11、具备信息检索、自然语言处理、web挖掘等搜索引擎相关知识,有从事海量网络爬虫、网页去重、网页信息抽取
注:请发参与项目 URL 或 Github 连接