语音算法工程师

岗位职责：

负责语音全链路技术研发，包括语音识别（ASR）、语音合成（TTS）、语音分类（情感/场景识别）、语音克隆（Voice Cloning）等模型的训练与调优。

优化噪声环境下的语音识别鲁棒性，提升合成语音的自然度和情感表现力，设计轻量化语音分类模型。

将语音算法封装为可落地的服务模块（如实时语音转写、个性化语音合成），解决端到端工程化问题（延迟优化、资源占用控制）。

适配多端场景（移动端、嵌入式设备、云端），开发跨平台SDK或API接口（如基于gRPC/WebSocket的流式语音服务）。

实现少样本/零样本语音克隆技术，支持个性化音色定制与语音驱动内容生成（如虚拟人播报、有声书制作）。

针对边缘设备（如IoT终端、车载芯片）进行模型量化（INT8/FP16）、剪枝及NPU加速（如华为昇腾、高通Hexagon）。

优化实时语音系统的内存管理与线程调度，提升多任务并发处理能力。

招聘要求：

精通语音领域核心算法：

ASR：熟悉CTC/RNN-T/Conformer等模型，掌握Kaldi、ESPnet等工具链。

TTS：熟悉Tacotron/FastSpeech/VITS等架构，精通韵律控制、多语言合成技术。

语音分类：掌握声学特征（MFCC、FBank）与时频分析，熟悉CNN/Transformer分类模型。

语音克隆：了解SV2TTS、VITS-based克隆方案，熟悉音色解耦与迁移技术。

熟悉主流框架：PyTorch/TensorFlow，掌握ONNX/TensorRT等模型转换工具。

具备语音系统全链路开发经验：音频预处理（降噪、VAD）、流式处理、服务部署（Docker/K8s）。

熟练使用语音处理工具：FFmpeg、Librosa、WebRTC，熟悉实时音频编解码（Opus、AAC）。

精通Python/C++，具备嵌入式语音系统开发经验（如ARM架构优化、RTOS适配）。

2年以上语音算法开发经验，主导过至少一个完整语音项目（如智能客服语音系统、语音克隆APP）。

计算机科学、信号处理、声学等相关专业本科及以上学历，硕士优先。

加分项

有低资源语言（方言/小语种）语音技术研发经验。

熟悉语音驱动唇形同步（如Wav2Lip）、声纹识别（Speaker Verification）技术。

参与过开源语音项目（如Mozilla TTS、WeNet）或语音竞赛（如ASRU Challenge）。

公司地点：深圳南山区深圳湾创新科技中心-T1栋20楼