高级深度学习算法工程师

职位名称：多模态感知理解与AIGC图像可控编辑资深算法专家/实习生

【岗位亮点】

前沿技术探索：深入AIGC、多模态理解、统一生成架构等领域，探索和落地最前沿的图像编辑与理解技术。

核心竞争力打造：负责影像算法中光效、色彩、影调、风格化图像可控编辑，多模态感知理解与推荐，智能体Agent等核心算法的研发与优化，直接影响产品竞争力。

大模型实践：参与高分辨率图像可控编辑、云端大模型蒸馏/压缩/低比特量化等前瞻技术研究与实践。

数据驱动迭代：构建高质量数据飞轮，设计自动化数据链路，加速算法迭代效率。

跨团队协作：与产品、设计、工程团队紧密合作，将技术转化为实际业务价值。

【工作职责】

AIGC图像可控编辑与多模态感知：负责AIGC在光效、色彩、影调、风格化图像可控编辑，以及多模态感知理解与推荐等方向的算法研究与预研。持续追踪前沿技术，迭代优化算法，为产品的核心竞争力负责。

前沿技术研究与复现：密切关注AIGC、多模态理解、理解与生成统一架构、智能体Agent等领域的最新进展，高效复现高水平论文并持续优化算法效果。

大模型技术探索：探索高分辨率图像可控编辑技术架构，以及云端大模型蒸馏、压缩、低比特量化等前沿技术。

数据飞轮构建与优化：依据业务需求，构建并持续优化高质量数据飞轮，设计多样化的自动化数据链路，以加速AIGC与多模态理解算法的快速迭代。

跨职能协作与文档管理：与产品、设计和工程团队紧密合作，将业务需求转化为可行的技术解决方案，并负责技术文档的编写与维护，确保项目代码的可维护性和可扩展性。

【任职要求】

【影像算法实习生】

学历背景：硕士/博士研究生在读。

实习时间：需保证三个月及以上实习时间，长期实习者优先考虑。

扎实AI基础：精通Python、PyTorch，具备扎实的AI基础，包括但不限于CNN、Transformer、扩散模型、图文多模态等。

核心技术掌握：熟悉生成、编辑、多模态理解任务的核心技术，如GANs、ControlNet、FLUX、Kontext、CLIP等。

大模型实践经验：具备多模态大模型（如扩散模型、LLM、VLM多模态模型）的训练、微调或应用经验。

加分项：

熟练的英文文献阅读能力。

在图像、视觉、机器学习、模式识别等相关方向发表过顶会/高水平学术论文或获得专利。

具备图像/视频相关项目的开发经验。

【社招职员】

工作经验： 3年及以上CV&AI领域扎实的理论基础与丰富的项目实践经验，其中需包含至少2年及以上的AIGC或多模态感知理解算法研究与实战开发经验。

大模型精通：熟练掌握VLM、Stable Diffusion、FLUX等主流大模型及其相关衍生算法架构，并具备实际项目应用落地经验。

技术热情与沟通：对新技术、新方法有强烈的学习热情和探索精神，具备良好的沟通表达能力。

加分项：在多模态大模型和AIGC图像生成相关方向发表过高水平学术论文。

【工作地点】杭州(西湖区西溪首座A4)、上海(浦东新区集贤中心)

【长期有效】期待您的加入！

公司地点：杭州西湖区中节能·西溪首座A4幢

公司简介：

vivo总部位于中国东莞，充分吸纳、发展本地的人才资源，布局了广泛的研发网络，覆盖深圳、东莞、南京、北京、杭州、上海、西安等城市，范围包括5G通信、人工智能、工业设计、影像技术等众多个人消费电子产品和服务的前沿领域。

作为一家以设计驱动创造伟大产品，以智能终端和智慧服务为核心的科技公司，vivo致力于成为联接人与数字世界的桥梁。vivo以独特的创造力，为用户提供更加便捷的个人移动数字化生活。得益于vivo的智能制造网络（含品牌授权），截至目前，vivo年生产能力近2亿台，向全球60+个国家和地区的4亿+用户提供优质产品和服务。从2022年全年的数据来看，vivo以18.6%的市场份额在中国市场排名第一位。（数据来源：IDC，2023.01）

同时，依托智能手机在手机行业的优势，vivo从多个领域寻求互联网业务组合形态的突破，形成了以应用商店、游戏中心、浏览器为核心代表的互联网产品。2018年，人工智能助手Jovi发布，目前覆盖3.78亿用户，支持1000+种场景需求，覆盖手机本身、起居、出行、工作、休闲、学习、亲子、健康等核心场景。

在通往未来的道路上，vivo秉承“本分、用户导向、设计驱动、学习、团队”等企业核心价值观，在整个价值链中遵循并贯彻可持续发展策略，致力于成为一家更健康、更长久的世界一流企业。

高级深度学习算法工程师

公司地点：杭州西湖区中节能·西溪首座A4幢

公司简介：

职位发布者：姜经理

融资阶段：不需要融资

公司规模：10000人以上

相似职位：