职位名称:多模态感知理解与AIGC图像可控编辑资深算法专家/实习生
【岗位亮点】
前沿技术探索: 深入AIGC、多模态理解、统一生成架构等领域,探索和落地最前沿的图像编辑与理解技术。
核心竞争力打造: 负责影像算法中光效、色彩、影调、风格化图像可控编辑,多模态感知理解与推荐,智能体Agent等核心算法的研发与优化,直接影响产品竞争力。
大模型实践: 参与高分辨率图像可控编辑、云端大模型蒸馏/压缩/低比特量化等前瞻技术研究与实践。
数据驱动迭代: 构建高质量数据飞轮,设计自动化数据链路,加速算法迭代效率。
跨团队协作: 与产品、设计、工程团队紧密合作,将技术转化为实际业务价值。
【工作职责】
AIGC图像可控编辑与多模态感知: 负责AIGC在光效、色彩、影调、风格化图像可控编辑,以及多模态感知理解与推荐等方向的算法研究与预研。持续追踪前沿技术,迭代优化算法,为产品的核心竞争力负责。
前沿技术研究与复现: 密切关注AIGC、多模态理解、理解与生成统一架构、智能体Agent等领域的最新进展,高效复现高水平论文并持续优化算法效果。
大模型技术探索: 探索高分辨率图像可控编辑技术架构,以及云端大模型蒸馏、压缩、低比特量化等前沿技术。
数据飞轮构建与优化: 依据业务需求,构建并持续优化高质量数据飞轮,设计多样化的自动化数据链路,以加速AIGC与多模态理解算法的快速迭代。
跨职能协作与文档管理: 与产品、设计和工程团队紧密合作,将业务需求转化为可行的技术解决方案,并负责技术文档的编写与维护,确保项目代码的可维护性和可扩展性。
【任职要求】
【影像算法实习生】
学历背景: 硕士/博士研究生在读。
实习时间: 需保证三个月及以上实习时间,长期实习者优先考虑。
扎实AI基础: 精通Python、PyTorch,具备扎实的AI基础,包括但不限于CNN、Transformer、扩散模型、图文多模态等。
核心技术掌握: 熟悉生成、编辑、多模态理解任务的核心技术,如GANs、ControlNet、FLUX、Kontext、CLIP等。
大模型实践经验: 具备多模态大模型(如扩散模型、LLM、VLM多模态模型)的训练、微调或应用经验。
加分项:
熟练的英文文献阅读能力。
在图像、视觉、机器学习、模式识别等相关方向发表过顶会/高水平学术论文或获得专利。
具备图像/视频相关项目的开发经验。
【社招职员】
工作经验: 3年及以上CV&AI领域扎实的理论基础与丰富的项目实践经验,其中需包含至少2年及以上的AIGC或多模态感知理解算法研究与实战开发经验。
大模型精通: 熟练掌握VLM、Stable Diffusion、FLUX等主流大模型及其相关衍生算法架构,并具备实际项目应用落地经验。
技术热情与沟通: 对新技术、新方法有强烈的学习热情和探索精神,具备良好的沟通表达能力。
加分项: 在多模态大模型和AIGC图像生成相关方向发表过高水平学术论文。
【工作地点】杭州(西湖区西溪首座A4)、上海(浦东新区集贤中心)
【长期有效】期待您的加入!
vivo总部位于中国东莞,充分吸纳、发展本地的人才资源,布局了广泛的研发网络,覆盖深圳、东莞、南京、北京、杭州、上海、西安等城市,范围包括5G通信、人工智能、工业设计、影像技术等众多个人消费电子产品和服务的前沿领域。
作为一家以设计驱动创造伟大产品,以智能终端和智慧服务为核心的科技公司,vivo致力于成为联接人与数字世界的桥梁。vivo以独特的创造力,为用户提供更加便捷的个人移动数字化生活。得益于vivo的智能制造网络(含品牌授权),截至目前,vivo年生产能力近2亿台,向全球60+个国家和地区的4亿+用户提供优质产品和服务。从2022年全年的数据来看,vivo以18.6%的市场份额在中国市场排名第一位。(数据来源:IDC,2023.01)
同时,依托智能手机在手机行业的优势,vivo从多个领域寻求互联网业务组合形态的突破,形成了以应用商店、游戏中心、浏览器为核心代表的互联网产品。2018年,人工智能助手Jovi发布,目前覆盖3.78亿用户,支持1000+种场景需求,覆盖手机本身、起居、出行、工作、休闲、学习、亲子、健康等核心场景。
在通往未来的道路上,vivo秉承“本分、用户导向、设计驱动、学习、团队”等企业核心价值观,在整个价值链中遵循并贯彻可持续发展策略,致力于成为一家更健康、更长久的世界一流企业。