岗位职责:
1、负责网络数据的采集,包括但不限于社交媒体、电子商务网站等;
2、设计和开发高效、稳定的数据爬取系统,以满足公司的数据需求;
3、对采集到的数据进行清洗、整理和存储,确保数据的准确性和完整性;
4、通过任务监控,优化采集策略等方式,提升网页抓取效率和质量;
5、负责RPA工具开发和维护,提升业务自动化水平;
6、负责python相关业务功能开发;
7、负责公司数据仓库的开发和优化,包括数据模型设计、ETL 流程设计和实施等。
任职要求:
1、计算机科学、信息工程或相关专业;
2、3年以上Python开发经验,熟悉Scrapy、Selenium等爬虫框架的原理;
3、熟悉HTTP、HTML、CSS、JavaScript等网络和网页技术,能够解析和处理复杂的网页结构;
4、有使用数据库(如MySQL、Redis等)存储和处理数据的经验,了解SQL和NoSQL的基本原理;
5、有使用代理、验证码识别等技术应对网站反爬策略的经验,具备JS逆向分析能力更佳;
6、良好的问题解决能力,能够独立分析和解决技术问题;
7、有国内外电商、社媒平台的爬虫开发经验者优先;
8、具备数据仓库和ETL工具的使用经验优先;
9、熟悉大数据技术(如Hadoop、Hive、Kafka等)者优先