岗位职责:
负责语音全链路技术研发,包括语音识别(ASR)、语音合成(TTS)、语音分类(情感/场景识别)、语音克隆(Voice Cloning)等模型的训练与调优。
优化噪声环境下的语音识别鲁棒性,提升合成语音的自然度和情感表现力,设计轻量化语音分类模型。
将语音算法封装为可落地的服务模块(如实时语音转写、个性化语音合成),解决端到端工程化问题(延迟优化、资源占用控制)。
适配多端场景(移动端、嵌入式设备、云端),开发跨平台SDK或API接口(如基于gRPC/WebSocket的流式语音服务)。
实现少样本/零样本语音克隆技术,支持个性化音色定制与语音驱动内容生成(如虚拟人播报、有声书制作)。
针对边缘设备(如IoT终端、车载芯片)进行模型量化(INT8/FP16)、剪枝及NPU加速(如华为昇腾、高通Hexagon)。
优化实时语音系统的内存管理与线程调度,提升多任务并发处理能力。
招聘要求:
精通语音领域核心算法:
ASR:熟悉CTC/RNN-T/Conformer等模型,掌握Kaldi、ESPnet等工具链。
TTS:熟悉Tacotron/FastSpeech/VITS等架构,精通韵律控制、多语言合成技术。
语音分类:掌握声学特征(MFCC、FBank)与时频分析,熟悉CNN/Transformer分类模型。
语音克隆:了解SV2TTS、VITS-based克隆方案,熟悉音色解耦与迁移技术。
熟悉主流框架:PyTorch/TensorFlow,掌握ONNX/TensorRT等模型转换工具。
具备语音系统全链路开发经验:音频预处理(降噪、VAD)、流式处理、服务部署(Docker/K8s)。
熟练使用语音处理工具:FFmpeg、Librosa、WebRTC,熟悉实时音频编解码(Opus、AAC)。
精通Python/C++,具备嵌入式语音系统开发经验(如ARM架构优化、RTOS适配)。
2年以上语音算法开发经验,主导过至少一个完整语音项目(如智能客服语音系统、语音克隆APP)。
计算机科学、信号处理、声学等相关专业本科及以上学历,硕士优先。
加分项
有低资源语言(方言/小语种)语音技术研发经验。
熟悉语音驱动唇形同步(如Wav2Lip)、声纹识别(Speaker Verification)技术。
参与过开源语音项目(如Mozilla TTS、WeNet)或语音竞赛(如ASRU Challenge)。
具备国产化芯片(地平线、瑞芯微)语音部署优化经验。