多模态算法工程师-视频 & 图像生成方向

1、研究并开发前沿的多模态生成算法，推动视频、图像、文本之间的跨模态生成和理解。

2、基于大规模视频和图像数据，训练和优化多模态模型，提升 AIGC内容生成质量。

3、设计和实现视频换脸、风格迁移、图像/视频超分辨率、文本驱动的视频生成等核心算法。

4、研究Transformer、Diffusion Models 在视频生成、图像生成任务中的应用，并进行模型优化。

5、跟踪前沿研究，推动多模态技术在 AI 直播、教育、文娱等场景的落地。

任职要求：

1、计算机、人工智能、数学、电子信息等相关专业，本科及以上学历（能力优秀者可放宽）。

2、扎实的编程能力，熟练掌握 Python / C++，熟悉 PyTorch / TensorFlow / JAX 等深度学习框架。

3、多模态模型经验：熟悉 Transformer（ViT、SAM）、Diffusion Models（Stable Diffusion, Imagen, Video Diffusion），有相关模型训练和优化经验者优先。

4、视频/图像处理经验：熟悉 GAN、Diffusion、NeRF、ControlNet、风格迁移、超分辨率等算法，有 AIGC、视频换脸、文本驱动的视频生成经验者优先。

5、计算加速经验：掌握模型压缩、蒸馏、量化（如 FP16/INT8）、TensorRT、ONNX 等技术，并能优化推理效率。

6、熟悉大模型和多模态数据处理，有自监督 / 无监督学习经验，能够在大规模数据上训练和优化多模态模型。

7、具备前沿研究能力，有高水平论文（如 CVPR、ICCV、NeurIPS、ICLR等）发表或竞赛经验者优先。

8、动手能力强，能快速实现论文中的前沿方法，并进行工程化落地。

9、责任心强，积极主动，具备良好的沟通能力和团队合作精神。

公司地点：北京中关村软件园17号楼