职位描述
1.负责非结构化文本数据的清洗、去噪及语义标注,确保数据符合模型训练需求。
2.设计并实施文本数据预处理 Pipeline(如正则表达式处理、意图、实体识别),支持下游 NLP 模型开发。
3.分析数据集分布特征,制定数据质量评估标准,输出数据问题报告及优化建议。
4.根据项目需求设计数据标注工具或标注规则文档,并指导标注团队完成标注任务。
5.配合算法工程师完成数据采集,日志分析等工作,参与模型迭代中的 bad case 分析。
6.与产品、算法团队沟通需求,确保数据处理方案与业务目标对齐,按时交付高质量数据集。
7.撰写数据处理流程文档、标注指南及技术报告,确保项目可复现性。
职位要求
1.熟悉 Python 及常用 NLP 工具,熟练使用 Pandas/NumPy 进行数据处理。
2.有 NLP 数据处理经验,熟悉文本分类、NER、意图识别或者大模型预处理等任务的数据处理流程。
3.具备数据标注经验,有一定语言学经验,能够区分不同语义之间的差别经验优先。
4.熟练使用 SQL或者Excel等标注工具,能独立编写自动化处理脚本。
5.对数据噪声、分布偏移等问题敏感,具备数据统计分析及可视化能力。
6.有较强的学习能力和解决问题的能力,表达顺畅,具备跨部门协作能力。
纬创软件是亚洲地区专业的软件外包服务及信息整合服务的领导厂商,我们专注于技术顾问服务、软件外包服务、业务流程外包服务、以及产品全球化服务,全球有13个营业据点,客户包括世界500强企业以及跨国知名企业。 纬创软件的主要服务项目包括:技术顾问服务、软件外包服务、业务流程外包服务、及产品全球化服务。我们拥有丰富多样的技术资源,可满足客户不同的需求;我们采取跨区整合、全球交付的离岸开发工作模式,以提升项目开发的效率与质量;为确保我们的项目与服务的质量,我们取得CMMI level3认证,及ISO9001质量管理系统、ISO27001信息安全管理系统等国际认证,用最严谨的标准进行软件开发、质量管理、与资安管理。