多模态大模型算法专家-不限【智能引擎】

职位描述

1、研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题;

2、打造行业领先的算法能力:如视频问答、音视频交互等;

3、探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练;

4、支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线;

5、关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。

职位要求

1、本科及以上学历,计算机相关专业,2年以上视频算法相关工作经验;

2、熟练掌握计算机视觉领域的基础理论和方法,熟悉PyTorch等主流深度学习框架,能够独立实现前沿模型;

3、有良好的自我学习能力及自驱力,对前沿领域有强探索欲,富有想象力和创造力;

4、良好的学术调研能力,良好的逻辑和数据分析能力,有高质量论文、开源项目、ACM竞赛经历、相关学术会议组织的权威比赛获奖经历或落地项目产出者优先。

加分项:

1. 在多模态/语音/语言大模型领域有科研或项目实践经验,或有大模型分布式训练经验;

2. 有计算机视觉及模式识别领域顶会(CVPR/ICCV/ECCV/ICML/NeurIPS/ICLR)或顶刊(TPAMI/IJCV)

公司地点:杭州西湖区蚂蚁集团A空间1号楼

公司简介:

职位发布者:曾女士

支付宝(杭州)数字服务技术有限公司

融资阶段:

公司规模:

相似职位: