工作职责:
1、大数据设施搭建和维护
2、大数据质量治理(数据采集、清洗和计算)
3、大数据功能完善、设计和开发;
4、大模型训练和调优、提示词优化等,比如LLaMA、Llama2、ChatGLM等开源模型的训练与微调,模型量化、推理性能优化,大模型分布式训练框架的开发与优化
5、大模型应用开发
6、构建高性能推理服务
7、RAG (检索增强生成) 系统开发
8、Agent框架开发与优化
9、领域知识注入与对话能力增强
10、大模型基础设施建设
11、分布式训练集群搭建与维护
12、多机多卡训练系统优化
13、模型评估与监控平台开发
14、推理服务负载均衡与扩缩容
岗位要求:
1、本科学历以上,有3~5年以上工作经验,计算数学、数理统计、计算机硬件、网络、软件、信息系统、自动化等专业毕业优先;
2、可独立完成AI大数据相关设施的研究、搭建和软件设计开发;熟悉主流开源数据仓库设施至少一种,比如TiDB HTAP类存储、SPARK、Flink调度设施等;
3、了解大模型工作机理和架构,有大模型设施搭建、数据处理、训练和调优经验优先;
4、有且不限于Java、Python、SQL等爬虫和处理工具处理大数据经验;
5、具有良好的学习钻研能力,对大数据领域和大模型AI领域有所涉猎和兴趣;
6、深入理解常用的数据建模理论,可独立把控数据仓库的各层级设计和建设,具有大模型数据处理实施经验优先;
7、具有数据治理方法,熟悉数据质量调优方法、质量治理框架搭建等相关经验优先;
8、精通PyTorch、DeepSpeed、Megatron-LM等分布式训练框架
9、熟悉Transformer架构和主流开源大模型(LLaMA/ChatGLM等)
10、熟悉PEFT、LoRA等高效微调方法
11、熟悉模型量化、剪枝等压缩技术
12、熟悉vLLM、text-generation-inference等推理加速框架
13、有良好的学习研究能力和主动工作精神,以及技术沟通能力;
备注:有AI工作经历的优先