数据挖掘

岗位职责:

1、设计和开发高效,可扩展的数据爬虫系统,以收集、清洗和整合网络上的大规模数据。

2、负责研究和分析网络资源,制定有效的数据抓取策略。

3、能够处理反爬虫策略,包括但不限于IP代理、验证码识别等。

4、提供数据结果,支持数据分析和机器学习等后续步骤。

5、关注并应用一般的Web安全实践,尊重目标网站的Robot.txt指引。

岗位要求:

1、具备4年以上爬虫相关经验,计算机科学、信息技术或相关专业的学士学位,或具有相关工作经验。

2、精通Python等至少一种程序语言,具有使用Scrapy,BeautifulSoup等爬虫工具的经验。

3、理解HTML,CSS,JavaScript及Web浏览器DOM结构。

4、熟悉网络爬虫技术,包括动态页面抓取、反封锁/IP代理等。

5、对大数据处理和存储有一定的了解和实践,比如Hadoop,Spark,MongoDB等。

6、具备良好的问题解决能力,能独立处理问题,并有持续学习和自我提升的动力。

7、对数据抓取的合法性、道德性等有深厚的理解,能制定和遵循严格的数据抓取原则。

【具备一定团队管理和组织能力】

星海数智信息技术有限公司,是一家人工智能领域的科技公司,成立于2023年10月。总部位于上海,重庆分公司坐落于重庆永川区大数据产业园B区。

公司致力于建设以数据为中心的基础设施平台,为大模型算法公司和终端应用提供包括数据管理、安全管理、平台软件等一系列基础设施服务。我们的团队年轻且充满活力,用丰富的经验和新颖的创意,为客户提供最好的解决方案。

让我们一起以星辰的力量,探索大海的浩瀚!

公司地点:重庆永川区永川服务外包产业园B区B3

公司简介:

职位发布者:孔女士

上海星海数智信息技术有限公司

融资阶段:

公司规模:

相似职位: