多模态大模型算法工程师

岗位职责:

1、计算机视觉(CV)方向:

• 参与图像分析、文本-图像生成、目标检测、语义分割等计算机视觉任务的研究、优化和落地。

• 研究和改进多模态大模型在视觉任务中的表现,包括 CLIP、VLM 等架构的优化和应用。

• 结合大模型研究视觉生成技术(如 Stable Diffusion、ControlNet),探索视频、图像编辑等应用场景。

2、自然语言处理(NLP)方向:

• 参与大语言模型(LLM)的训练、微调(Fine-tuning)和优化,如 RLHF、对齐增强等,提高文本生成、文本理解等任务的效果。

• 研究和优化 Transformer 架构,探索 Retrieval-Augmented Generation(RAG)、混合专家模型(MoE)层次化语义理解等技术,提高大模型的知识记忆与检索能力。

• 负责医疗文本、对话系统、问答系统等场景的数据处理、数据增强和质量评估,优化特定领域的模型表现。

3、语音处理(ASR/TTS)方向:

• 研究和优化语音识别(ASR)、语音合成(TTS)等任务,提升音频相关任务的准确性和生成质量。

• 研究跨模态语音-文本-图像融合技术,优化语音与视觉、文本等任务的协同学习能力。

• 结合深度学习方法(如 Conformer、HuBERT、Whisper)进行音频数据建模,提高低资源语言及复杂场景下的语音识别能力。

4、 大模型网络结构设计与优化:

• 参与多模态大模型(视觉、文本、语音等)的架构设计、训练与优化,提升模型在多模态任务上的表现。

• 研究和优化 Transformer 及其变种(如 ViT、LLaMA、Whisper)在多模态任务中的应用。

• 关注参数高效化训练方法,如 LoRA、Adapter、混合专家(MoE),提升大模型训练效率与泛化能力。

任职要求:

1、计算机、人工智能、电子信息等相关专业,硕士及以上学历,具备 2 年及以上深度学习研究或项目经验。

2、精通 Python,熟练使用 PyTorch 或 TensorFlow 进行深度学习模型开发,掌握 C++ 者优先。

3、熟悉计算机视觉、自然语言处理、语音识别等多模态任务的基础理论和算法,并具备相关项目经验。

4、深入理解 Transformer 及其衍生模型(BERT、GPT、LLaMA、Baichuan、ChatGLM 等),有实际落地经验者优先。

5、具备良好的工程能力,熟悉 Linux 开发环境、Shell 脚本编写及分布式训练框架(如 DeepSpeed、FSDP)。

6、具备扎实的数学和算法基础,能够阅读和复现前沿论文,并将研究成果应用于实际问题。

7、具有团队合作精神,良好的沟通能力和独立解决问题的能力。

优先条件:

1、在计算机视觉、自然语言处理、语音处理或多模态方向的国际顶级会议(CVPR、NeurIPS、ICLR、ACL 等)发表论文者优先。

2、在 AI 相关国际竞赛(如 Kaggle、SemEval、MS COCO 等)中取得优异成绩者优先。

3、具备大规模分布式训练、推理优化、模型压缩(如量化、剪枝、蒸馏)经验者优先。

4、熟悉主流推理框架(如 VLLM、TGI、TensorRT-LLM),并具备模型加速优化经验者优先。

5、具有多模态大模型(如 CLIP、BLIP、LLaVA)研究及应用经验者优先。

公司地点:上海浦东新区模力社区T1

公司简介:

职位发布者:叶先生

上海岩山科技股份有限公司

融资阶段:已上市

公司规模:100~499人

相似职位: