AI数据工程师

数据工程师

岗位职责：

1. 数据基建：构建高吞吐、低延迟的数据管道，支持PB级多模态数据存储（对标Vast Data架构）。

2. 智能ETL：开发自动化数据清洗、标注、增强工具（如弱监督标签生成），提升数据质量。

3. 数据治理：设计元数据管理、版本控制及溯源系统，满足合规性要求（GDPR/CCPA）。

4. 性能优化：优化分布式计算任务（Spark/Hive）及向量数据库检索效率。

5. 搭建多模态数据湖：

设计PB级企业数据存储架构（对标Vast Data），支持文本/图像/视频低延迟检索；

开发自动化ETL管道，清洗跨平台数据（Slack消息、会议记录、文档）。

6. 保障数据质量与安全：

实现数据血缘追溯，确保AI生成结果可回溯至源文件（合规性要求）；

构建敏感数据识别规则（如PCI/PII检测），集成DLP策略。

7. 支持知识图谱构建：

从非结构化数据中提取实体关系（如员工-项目-文档关联），更新企业图谱；

优化图数据库查询性能（Neo4j Cypher调优）。

任职必须项：

1. 经验：5年以上数据工程经验，3年以上AI数据平台开发经验。

2. 技术栈：

精通大数据生态（Hadoop/Spark/Kafka）及云原生存储（S3/Delta Lake）；

熟练使用SQL/Python/Scala，熟悉数据标注工具集成（如Scale AI API）；

掌握数据质量监控及自动化测试框架。

3. 业务匹配：有AI数据平台（数据湖、标注系统）开发经验，支持过大规模模型训练数据供给。

4. 精通分布式存储（Delta Lake/S3）与计算优化（Spark SQL调优）。

5. 掌握数据治理工具（Great Expectations、dbt）及元数据管理框架。

6. 熟悉知识图谱构建流程（实体识别、关系抽取）。

任职加分项：

1. 熟悉图数据库（Neo4j）或向量数据库（Milvus）；

2. 具备隐私计算数据流水线（如联邦学习数据拆分）经验；

3. 参与过自动化标注平台核心模块开发（对标Snorkel AI）；

4. 隐私计算技术（联邦学习支持多分支数据融合）；

5. 弱监督数据标注经验（Snorkel AI类工具）。

公司地点：上海徐汇区漕河泾聚鑫园2号楼5层