职责描述:
1、 参与或负责病历文本结构化算法的开发,包括但不限于实体抽取、关系抽取、事件抽取等;
2、 参与或负责临床术语标准化算法的开发,包括但不限于诊断标准化、药品标准化、手术标准化、实验室检验标准化等;
3、 参与或负责医学知识图谱构建及应用,包括但不限于医学数据爬取、知识图谱实体链接、图谱问答等;
4、 参与或负责临床预测模型的开发,包括但不限于深度学习、机器学习(随机森林、XGBoost、回归分析)等;
5、 参与或负责大语言模型数据集构建工作,研究、收集并整理医疗领域的大规模文本、图像等数据,以支持大语言模型的训练;
6、 基于多种大语言模型基座,结合公司海量的病历数据等设计和实现满足公司业务需求医学大语言模型,并赋能到公司其他业务系统中;
职位要求:
1、 计算机科学、人工智能、生物医学工程或相关领域的硕士或博士学位。
2、 熟悉机器学习、自然语言处理、知识图谱的理论基础,有医疗领域经验者优先。
3、 熟悉常用的NLP算法和模型,有实体识别、关系抽取、事件抽取、临床术语标准化等项目经验。
4、 熟悉Pytorch、Tensorflow等深度学习框架。
5、 熟练掌握Python、GO或C++等至少一门编程语言。
6、 熟悉Mysql、Postgresql、Oracle等主流关系型数据库,熟悉Neo4j等图数据库。
7、 熟悉常用的数据预处理、特征提取和模型训练技术。
8、 熟悉主流大模型架构如Llama2、Baichaun、Qwen等。
9、 熟悉LangChain、 LlamaIndex等大模型应用框架。
10、 熟悉医学术语和临床实践,具备良好的跨学科沟通能力。
11、 良好的问题解决和团队协作能力,对技术创新充满热情。