AI数据工程师

数据工程师

岗位职责:

1. 数据基建:构建高吞吐、低延迟的数据管道,支持PB级多模态数据存储(对标Vast Data架构)。

2. 智能ETL:开发自动化数据清洗、标注、增强工具(如弱监督标签生成),提升数据质量。

3. 数据治理:设计元数据管理、版本控制及溯源系统,满足合规性要求(GDPR/CCPA)。

4. 性能优化:优化分布式计算任务(Spark/Hive)及向量数据库检索效率。

5. 搭建多模态数据湖:

设计PB级企业数据存储架构(对标Vast Data),支持文本/图像/视频低延迟检索;

开发自动化ETL管道,清洗跨平台数据(Slack消息、会议记录、文档)。

6. 保障数据质量与安全:

实现数据血缘追溯,确保AI生成结果可回溯至源文件(合规性要求);

构建敏感数据识别规则(如PCI/PII检测),集成DLP策略。

7. 支持知识图谱构建:

从非结构化数据中提取实体关系(如员工-项目-文档关联),更新企业图谱;

优化图数据库查询性能(Neo4j Cypher调优)。

任职必须项:

1. 经验:5年以上数据工程经验,3年以上AI数据平台开发经验。

2. 技术栈:

精通大数据生态(Hadoop/Spark/Kafka)及云原生存储(S3/Delta Lake);

熟练使用SQL/Python/Scala,熟悉数据标注工具集成(如Scale AI API);

掌握数据质量监控及自动化测试框架。

3. 业务匹配:有AI数据平台(数据湖、标注系统)开发经验,支持过大规模模型训练数据供给。

4. 精通分布式存储(Delta Lake/S3)与计算优化(Spark SQL调优)。

5. 掌握数据治理工具(Great Expectations、dbt)及元数据管理框架。

6. 熟悉知识图谱构建流程(实体识别、关系抽取)。

任职加分项:

1. 熟悉图数据库(Neo4j)或向量数据库(Milvus);

2. 具备隐私计算数据流水线(如联邦学习数据拆分)经验;

3. 参与过自动化标注平台核心模块开发(对标Snorkel AI);

4. 隐私计算技术(联邦学习支持多分支数据融合);

5. 弱监督数据标注经验(Snorkel AI类工具)。

公司地点:上海徐汇区漕河泾聚鑫园2号楼5层

公司简介:

职位发布者:廖经理

上海联蔚数字科技集团股份有限公司

融资阶段:

公司规模:

相似职位: