语音算法工程师

岗位职责:

负责语音全链路技术研发,包括语音识别(ASR)、语音合成(TTS)、语音分类(情感/场景识别)、语音克隆(Voice Cloning)等模型的训练与调优。

优化噪声环境下的语音识别鲁棒性,提升合成语音的自然度和情感表现力,设计轻量化语音分类模型。

将语音算法封装为可落地的服务模块(如实时语音转写、个性化语音合成),解决端到端工程化问题(延迟优化、资源占用控制)。

适配多端场景(移动端、嵌入式设备、云端),开发跨平台SDK或API接口(如基于gRPC/WebSocket的流式语音服务)。

实现少样本/零样本语音克隆技术,支持个性化音色定制与语音驱动内容生成(如虚拟人播报、有声书制作)。

针对边缘设备(如IoT终端、车载芯片)进行模型量化(INT8/FP16)、剪枝及NPU加速(如华为昇腾、高通Hexagon)。

优化实时语音系统的内存管理与线程调度,提升多任务并发处理能力。

招聘要求:

精通语音领域核心算法:

ASR:熟悉CTC/RNN-T/Conformer等模型,掌握Kaldi、ESPnet等工具链。

TTS:熟悉Tacotron/FastSpeech/VITS等架构,精通韵律控制、多语言合成技术。

语音分类:掌握声学特征(MFCC、FBank)与时频分析,熟悉CNN/Transformer分类模型。

语音克隆:了解SV2TTS、VITS-based克隆方案,熟悉音色解耦与迁移技术。

熟悉主流框架:PyTorch/TensorFlow,掌握ONNX/TensorRT等模型转换工具。

具备语音系统全链路开发经验:音频预处理(降噪、VAD)、流式处理、服务部署(Docker/K8s)。

熟练使用语音处理工具:FFmpeg、Librosa、WebRTC,熟悉实时音频编解码(Opus、AAC)。

精通Python/C++,具备嵌入式语音系统开发经验(如ARM架构优化、RTOS适配)。

2年以上语音算法开发经验,主导过至少一个完整语音项目(如智能客服语音系统、语音克隆APP)。

计算机科学、信号处理、声学等相关专业本科及以上学历,硕士优先。

加分项

有低资源语言(方言/小语种)语音技术研发经验。

熟悉语音驱动唇形同步(如Wav2Lip)、声纹识别(Speaker Verification)技术。

参与过开源语音项目(如Mozilla TTS、WeNet)或语音竞赛(如ASRU Challenge)。

具备国产化芯片(地平线、瑞芯微)语音部署优化经验。

公司地点:深圳南山区深圳湾创新科技中心-T1栋20楼

公司简介:

职位发布者:孟先生

深圳市科思科技股份有限公司

融资阶段:

公司规模:

相似职位: