职位描述
1.深入对接业务需求,将多模态大模型技术应用于语音合成、语音交互、视频内容生成等核心场景,推动高质量语音技术与多模态系统结合落地并产生业务价值;
2.独立或协同团队完成语音合成相关算法的研发与优化,包括跨模态语音生成、情感化TTS、音视频融合表达等关键技术,提升语音自然度与表现力;
3.跟踪多模态与语音合成交叉领域的前沿技术,推进相关技术预研与创新性原型构建。
职位要求
1.计算机、人工智能、信号处理等相关专业硕士及以上学历,3年以上多模态或语音合成相关算法研发经验;
2.具备扎实的多模态或语音算法基础,深入理解TTS技术链路,具备语音-多模态融合项目经验者优先;
3.熟练掌握 Python/C++ 等编程语言及PyTorch/TensorFlow 等深度学习框架,具备语音合成或多模态算法研发和系统实现经验;
4.具备良好的英文文献阅读和算法实现能力,在语音或多模态领域顶会发表过论文或持有相关专利者优先。