AI数据工程师

岗位职责:

1、数据预处理与清洗

1.1开发高效的数据清洗流水线,处理TB级别的原始数据

1.2设计多语言文本预处理算法,包括编码转换、格式标准化等

1.3构建数据质量评估模型,自动识别和过滤低质量数据

1.4开发敏感信息检测和脱敏系统,确保数据安全合规

1.5实现数据格式转换和结构化处理,适配不同模型训练需求

2、数据标注与增强

2.1设计高效的数据标注流程和质量控制机制

2.2开发半自动化标注工具,提升标注效率和一致性

2.3构建多轮对话、指令跟随等专项数据集

2.4实现数据增强算法,扩充训练数据的多样性

2.5建立标注质量评估体系,确保标注数据的准确性

3、数据管理与服务

3.1设计大规模训练数据的存储和管理架构

3.2开发数据版本控制系统,支持数据集的迭代和回滚

3.3构建数据血缘追踪系统,确保数据来源的可追溯性

3.4建立数据服务API,为模型训练提供高效的数据访问接口

3.5实现数据分发和缓存机制,优化训练时的数据加载性能

岗位要求:

1、计算机科学、软件工程、数据科学等相关专业统招本科及以上学历,3-5年数据处理或相关领域工作经验,有大模型数据处理经验者优先;

2、精通Python开发,熟悉pandas、numpy、scikit-learn等库;熟悉Spark、Hadoop、Kafka等大数据处理框架;精通SQL,熟悉MySQL、PostgreSQL、hologres等;

3、了解自然语言处理基本概念和预处理方法,有过常用ML算法,有模型训练和评估经验;熟悉数据清洗、特征工程、异常检测等技术;有网络爬虫开发经验优先;

4、具备TB级数据处理和管理经验,有完整的数据处理流水线开发经验,熟悉数据质量管理和异常检测方法;熟悉AWS、阿里云、等云平台服务;

5、有优秀的问题分析和解决能力,有良好的代码规范和文档编写习惯,强烈的质量意识和责任心,良好的团队协作和沟通能力,持续学习和技术创新的热情。

公司地点:广州天河区钛动科技中心广州市天河区华观路与高唐路交汇处时代E-PARK8栋02钛动科技中心

公司简介:

职位发布者:邱先生

广州钛动科技股份有限公司

融资阶段:B轮

公司规模:500~999人

相似职位: