AI数据工程师（高级/资深）

一、计算引擎方向

职位描述：

1、参与千亿级数据处理平台的建设，构建自然语言和多模态大模型的数据分析、清洗、评测和反馈平台。

2、设计开发数据处理框架，提升数据分析、清洗人员的研发效率，提升系统性能。

3、设计开发数据评测和反馈平台，持续提高数据质量与迭代效率。

4、设计开发数据标准、流程、自动化工具，提升团队整体效率。

5、探索大数据组件、中间件在超大规模数量下AI+DATA场景的性能优化方案。

任职要求：

1、拥有计算机科学或相关领域的硕士学位。

2、具有千亿级大数据平台开发岗位3年及以上工作经验。

3、熟练掌握Hadoop/Hudi/Iceberg、Spark、Kubernetes、Elasticsearch、MongoDB等组件的使用，精通其中至少一个组件；

4、熟练掌握Python/Java/Go语言，熟悉常用数据结构及算法。

5、熟练掌握分布式、网络、操作系统领域的知识，掌握TCP/IP协议、掌握Linux系统的使用。

6、良好的沟通能力和团队合作精神。

加分项：

1、有AI数据平台建设经验。

二、存储底座方向

职位描述：

1、设计开发PB级数据存储底座建设，构建多数据中心、多存储介质高性能存储框架。

2、设计开发面向支撑AI+DATA大规模多层级智能路由缓存框架，包括对象存储、文件存储等。

3、设计开发基于数据湖、数据管理、存算分离架构的元数据管理框架。

4、设计开发数据重复检测、文件合并等存储治理框架。

5、探索AI+DATA大规模数据处理、训练场景下的性能优化方案。

任职要求：

1、拥有计算机科学或相关领域的硕士学位。

2、具有存储领域相关3年及以上工作经验。

3、熟悉主流分布式文件系统如GPFS、Lustre等，熟悉主流对象存储协议S3等，熟悉主流数据湖技术如Iceberg/Hudi等，熟悉分布式缓存系统如Alluxio/Redis等，精通其中至少一个方向。

4、熟练掌握Java/Go/C++语言，熟悉常用数据结构及算法；

5、对常见RPC框架有深入的理解和实践经验。

加分项：

1、有AI存储底座相关建设经验。

三、爬虫方向

职位描述：

1、设计开发高效、可扩展的数据爬虫框架，以收集、清洗和整合大规模网络数据。

2、研究分析网络资源，制定有效的数据抓取策略。

3、处理反爬虫策略，包括但不限于IP代理、验证码识别等。

4、提供数据结果，支持数据分析和机器学习等后续步骤。

5、关注并应用一般的Web安全实践，尊重目标网站的Robot.txt指引。

任职要求：

1、拥有计算机科学或相关领域的硕士学位。

2、精通Python等至少一种程序语言，具有使用Scrapy/BeautifulSoup等爬虫工具的经验。理解HTML，CSS，JavaScript及Web浏览器DOM结构。

3、熟悉网络爬虫技术，包括动态页面抓取、反封锁/IP代理等。

4、对大数据处理和存储有一定的了解和实践，比如Hadoop，Spark，MongoDB等。

5、具备良好的问题解决能力，能独立处理问题，并有持续学习和自我提升的动力。对数据抓取的合法性、道德性等有深厚的理解，能制定和遵循严格的数据抓取原则。

AI数据工程师（高级/资深）

公司地点：上海徐汇区上海创智学院上海创智学院

公司简介：

职位发布者：石先生

融资阶段：

公司规模：

相似职位：