高性能计算研发工程师

岗位职责：

1、负责推理加速算法的研发和实现，包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等，负责深度学习模型的量化和蒸馏，实现高效的模型压缩和部署，提高模型的运行效率和推理速度。

2、负责LLM/多模态模型的端到端部署和流程优化，探索包括但不限于推理引擎的开发、模型优化和压缩、模型部署的端到端流程设计等。

3、负责设计和研发AI端到端任务编排体系，提升AI大模型在业务中的应用效率。

4、负责优化计算集群的资源调度和弹性计算策略，提升集群的资源利用率。

5、负责算法底层工程的链路设计和工程落地，提高服务的运行效率。

岗位要求：

1、硕士及以上学历，计算机专业出身。

2、熟悉CPU/GPU架构与工作原理，有深度学习系统研发经验，熟悉CUDA、Triton Language 等算子编写的相关技术。

3、熟悉LLM/多模态相关的算法技术以及推理加速方法，具有LLM训练及开发经验，如大模型数据处理、模型微调、预训练、强化学习等，了解SGLang，VLLM，TRT-LLM等大模型推理加速框架

4、具有深度学习推理加速和优化的经验，熟悉常见的加速技术，如剪枝、量化等，并能够根据不同场景和硬件平台进行针对性的优化。

5、熟悉常见的深度学习框架，如PyTorch、TensorFlow等，并能够根据业务需求进行算法实现和调试。

6、具备较强的团队合作和沟通能力，优秀的分析和解决问题能力，对挑战性问题充满激情，自驱有追求，具备较强的攻坚能力。

7、具备 1 - 5 年相关领域工作经验，能够快速融入工作环境，精准把握工作重点，独立承担相应工作职责。

公司地点：北京海淀区搜狐媒体大厦

中国领先的网络媒体、视频、搜索和游戏服务集团；第一家拥有三个美国上市公司（NASDAQ:SOHU、NASDAQ：CYOU、NYSE:SOGO）的中国互联网企业。北京2008年奥运会互联网内容服务赞助商；中国互联网文化的启蒙者；中国综合门户网站的创始者。

中国用户规模第四的互联网公司；中国互联网用户获取资讯的主流媒体平台；两次反盗版行动引领中国视频行业正版化进程；拥有中国第二大搜索引擎品牌——搜狗；搜狗输入法覆盖97%中国互联网用户；为超过7亿的中国互联网和移动互联网用户提供优质服务。