1、研究并开发前沿的多模态生成算法,推动视频、图像、文本之间的跨模态生成和理解。
2、基于大规模视频和图像数据,训练和优化 多模态模型,提升 AIGC内容生成质量。
3、设计和实现视频换脸、风格迁移、图像/视频超分辨率、文本驱动的视频生成等核心算法。
4、研究Transformer、Diffusion Models 在 视频生成、图像生成 任务中的应用,并进行模型优化。
5、跟踪前沿研究,推动多模态技术在 AI 直播、教育、文娱等场景的落地。
任职要求:
1、计算机、人工智能、数学、电子信息等相关专业,本科及以上学历(能力优秀者可放宽)。
2、扎实的编程能力,熟练掌握 Python / C++,熟悉 PyTorch / TensorFlow / JAX 等深度学习框架。
3、多模态模型经验:熟悉 Transformer(ViT、SAM)、Diffusion Models(Stable Diffusion, Imagen, Video Diffusion),有相关模型训练和优化经验者优先。
4、视频/图像处理经验:熟悉 GAN、Diffusion、NeRF、ControlNet、风格迁移、超分辨率等算法,有 AIGC、视频换脸、文本驱动的视频生成经验者优先。
5、计算加速经验:掌握 模型压缩、蒸馏、量化(如 FP16/INT8)、TensorRT、ONNX 等技术,并能优化推理效率。
6、熟悉大模型和多模态数据处理,有 自监督 / 无监督学习 经验,能够在 大规模数据 上训练和优化多模态模型。
7、具备前沿研究能力,有高水平论文(如 CVPR、ICCV、NeurIPS、ICLR等)发表或竞赛经验者优先。
8、动手能力强,能快速实现论文中的前沿方法,并进行工程化落地。
9、责任心强,积极主动,具备良好的沟通能力和团队合作精神。