核心职责:
1、设计并实施算法评估体系,制定多维评测指标(如准确性、鲁棒性、泛化性、生成质量量化等)
2、主导统计显著性分析,针对算法应用场景运用统计学方法量化指标的置信区间及数据采样要求,为模型评估提供科学的数据支撑
3、创新大模型评估方法论及实现关键技术落地,如跨模态评估方案、混合实验设计(人类评分+自动指标)、偏差归因分析等
4、深度参与算法研发全流程,执行算法评估并输出评测报告,为算法优化及准出提供高信度的数据支持,建立评估-反馈-迭代-线上效果监测的闭环优化机制
岗位要求:
1、统计学/计算数学/AI方向硕士及以上(博士优先)
2、3年以上算法评测经验,1年以上LLM评测经验(博士可适当放宽)
3、精通现代统计推断方法(非参数检验、多重检验校正、贝叶斯推断等),掌握统计学复杂实验设计(分层抽样、序贯检验等)
4、熟练使用主流评估框架(lm-evaluation-harness, HELM),熟练使用Python进行测试集构建、评估工具、数据分析等场景的工程代码开发
有以下经历优先:
1、发表过统计学顶会论文(KDD/NAACL/WWW等)
2、参与过开源算法评测框架开发
美的是一家消费电器、暖通空调、机器人与自动化系统、智能供应链(物流)的科技集团,提供多元化的产品种类,包括以厨房家电、冰箱、洗衣机、及各类小家电的消费电器业务;以家用空调、中央空调、供暖及通风系统的暖通空调业务等。