资深多模态算法工程师

职位描述

1. 负责多模态大模型（涵盖图像、视频、音频、文本等模态）在内容安全、活体检测、人脸识别、内容理解等场景的算法研发与性能优化；

2. 探索和实现图像、视频、文本等多模态数据的统一建模与高效表征学习，提升模型在内容审核、短视频内容理解等任务中的泛化性和鲁棒性；

3. 紧密跟进与研究业界领先的大模型技术，如InternVL3、Qwen2.5-VL等，探索并落地其在图文审核、视频内容审核、身份核验等业务场景中的应用策略及精调方法；

4. 负责构建并持续优化模型训练及推理系统，显著提升多模态模型在安全审核领域的准确率、召回率与实时响应性能；

5. 探索并实现文本生成图像技术在内容生成与审核中的应用，提升系统的生成与理解能力；

6. 与产品、工程等相关团队密切合作，推动多模态审核、识别系统的业务落地，实现业务场景的闭环验证与持续迭代优化。

职位要求

1. 硕士及以上学历，计算机科学、人工智能、电子工程等相关专业毕业，具备图像识别、计算机视觉、多模态建模领域扎实的理论基础与工程经验；

2. 熟练掌握至少一种主流深度学习框架（如PyTorch、TensorFlow），具备优秀的算法实现、模型优化及工程落地能力；

3. 具备以下至少一项领域的研究或实际项目经验：

a. 多模态预训练模型的应用与优化（如InternVL3、Qwen2.5-VL等）；

b. 内容安全审核算法的开发（违规图像识别、视频检测、跨模态内容匹配等）；

c. 活体检测、人脸识别、身份验证等计算机视觉任务；

4. 具备较强的算法问题分析和系统级建模能力，能够清晰、高效地沟通与协作；

5. 具有大模型的训练、推理性能优化及落地经验者优先；熟悉大模型微调技术（如SFT、LoRA）及推理加速策略者优先。

公司地点：广州天河区网易大厦效率工程部

网易 (NASDAQ: NTES)是中国领先的互联网技术公司，在开发互联网应用、服务及其它技术方面，始终保持国内业界的领先地位。网易对中国互联网的发展具有强烈的使命感，网易利用最先进的互联网技术，加强人与人之间信息的交流和共享，实现“网聚人的力量”。