高性能计算研发工程师

岗位职责:

1、负责推理加速算法的研发和实现,包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等,负责深度学习模型的量化和蒸馏,实现高效的模型压缩和部署,提高模型的运行效率和推理速度。

2、负责LLM/多模态模型的端到端部署和流程优化,探索包括但不限于推理引擎的开发、模型优化和压缩、模型部署的端到端流程设计等。

3、负责设计和研发AI端到端任务编排体系,提升AI大模型在业务中的应用效率。

4、负责优化计算集群的资源调度和弹性计算策略,提升集群的资源利用率。

5、负责算法底层工程的链路设计和工程落地,提高服务的运行效率。

岗位要求:

1、硕士及以上学历,计算机专业出身。

2、熟悉CPU/GPU架构与工作原理,有深度学习系统研发经验,熟悉CUDA、Triton Language 等算子编写的相关技术。

3、熟悉LLM/多模态相关的算法技术以及推理加速方法,具有LLM训练及开发经验,如大模型数据处理、模型微调、预训练、强化学习等,了解SGLang,VLLM,TRT-LLM等大模型推理加速框架

4、具有深度学习推理加速和优化的经验,熟悉常见的加速技术,如剪枝、量化等,并能够根据不同场景和硬件平台进行针对性的优化。

5、熟悉常见的深度学习框架,如PyTorch、TensorFlow等,并能够根据业务需求进行算法实现和调试。

6、具备较强的团队合作和沟通能力,优秀的分析和解决问题能力,对挑战性问题充满激情,自驱有追求,具备较强的攻坚能力。

7、具备 1 - 5 年相关领域工作经验,能够快速融入工作环境,精准把握工作重点,独立承担相应工作职责。

公司地点:北京海淀区搜狐媒体大厦

公司简介:

中国领先的网络媒体、视频、搜索和游戏服务集团;第一家拥有三个美国上市公司(NASDAQ:SOHU、NASDAQ:CYOU、NYSE:SOGO)的中国互联网企业。北京2008年奥运会互联网内容服务赞助商;中国互联网文化的启蒙者;中国综合门户网站的创始者。

中国用户规模第四的互联网公司;中国互联网用户获取资讯的主流媒体平台;两次反盗版行动引领中国视频行业正版化进程;拥有中国第二大搜索引擎品牌——搜狗;搜狗输入法覆盖97%中国互联网用户;为超过7亿的中国互联网和移动互联网用户提供优质服务。

职位发布者:孟经理

北京搜狐新媒体信息技术有限公司

融资阶段:

公司规模:1000~9999人

相似职位: