职位描述:
1、研发并训练适用于视觉生成任务的多模态基座大模型,显著超越Stable Diffusion、Stable Video Diffusion等开源基座模型。
2、借助自然语言多模态大模型等基座模型,研发下一代高可控性、强交互性、高美学质量的视觉生成算法,包括多场景长视频生成与编辑、多轮交互式图像生成、编辑与润色等。
要求:
1. 两年左右视觉生成领域工作经验。了解自然语言/多模态大模型的基本原理,对于视觉生成领域的流行算法(包括但不限于GAN系列,VQ-VAE/AutoRegressive系列,Diffusion Models和NeRF系列等)有一手的实践经验。有相关方向的顶会论文、知名开源项目或重要产品落地者优先。
2. 优秀的编程能力,熟练使用pytorch,熟悉megatron分布式训练框架。
3. 熟悉AIGC应用数据准备的全流程,包括数据采集、清洗、标注等。对于如何人工合成高质量训练数据有深入的理解。
4. 有强烈的责任心,良好的团队合作能力和跨团队沟通能力。