数据工程师
岗位职责:
1. 数据基建:构建高吞吐、低延迟的数据管道,支持PB级多模态数据存储(对标Vast Data架构)。
2. 智能ETL:开发自动化数据清洗、标注、增强工具(如弱监督标签生成),提升数据质量。
3. 数据治理:设计元数据管理、版本控制及溯源系统,满足合规性要求(GDPR/CCPA)。
4. 性能优化:优化分布式计算任务(Spark/Hive)及向量数据库检索效率。
5. 搭建多模态数据湖:
设计PB级企业数据存储架构(对标Vast Data),支持文本/图像/视频低延迟检索;
开发自动化ETL管道,清洗跨平台数据(Slack消息、会议记录、文档)。
6. 保障数据质量与安全:
实现数据血缘追溯,确保AI生成结果可回溯至源文件(合规性要求);
构建敏感数据识别规则(如PCI/PII检测),集成DLP策略。
7. 支持知识图谱构建:
从非结构化数据中提取实体关系(如员工-项目-文档关联),更新企业图谱;
优化图数据库查询性能(Neo4j Cypher调优)。
任职必须项:
1. 经验:5年以上数据工程经验,3年以上AI数据平台开发经验。
2. 技术栈:
精通大数据生态(Hadoop/Spark/Kafka)及云原生存储(S3/Delta Lake);
熟练使用SQL/Python/Scala,熟悉数据标注工具集成(如Scale AI API);
掌握数据质量监控及自动化测试框架。
3. 业务匹配:有AI数据平台(数据湖、标注系统)开发经验,支持过大规模模型训练数据供给。
4. 精通分布式存储(Delta Lake/S3)与计算优化(Spark SQL调优)。
5. 掌握数据治理工具(Great Expectations、dbt)及元数据管理框架。
6. 熟悉知识图谱构建流程(实体识别、关系抽取)。
任职加分项:
1. 熟悉图数据库(Neo4j)或向量数据库(Milvus);
2. 具备隐私计算数据流水线(如联邦学习数据拆分)经验;
3. 参与过自动化标注平台核心模块开发(对标Snorkel AI);
4. 隐私计算技术(联邦学习支持多分支数据融合);
5. 弱监督数据标注经验(Snorkel AI类工具)。