深度学习推理系统研发专家-北京杭州上海

岗位职责:

● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。

● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。

● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。

● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

任职要求:

● 扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计开发调试能力。

● 熟悉深度学习的基础理论概念,了解主流模型算法,能够熟练应用PyTorch、TensorFlow等框架。

● 优良的沟通表达能力和团队合作经验,具备快速学习的能力,以及深入钻研技术问题的耐心。

● 熟悉计算机体系结构基础知识,有扎实的高性能Kernel开发(CUDA/Triton/ROCM等)、推理引擎优化(vLLM/SGLang等)、模型算法优化(量化/稀疏等)、AI计算资源调度优化等方面的经验。

公司地点:杭州西湖区阿里巴巴云谷园区阿里云-云谷园区

公司简介:

阿里云——为了无法计算的价值

阿里云计算有限公司成立于2009年9月10日,在杭州、北京和硅谷等地设有研发中心和运营机构。阿里云的目标是打造全球领先的云计算服务平台。在未来的互联网中,云计算将会成为一种随时、随地,并根据需要而提供的公共服务。高效的绿色数据中心以及能支持不同互联网应用的大规模分布式存储和计算是营造下一代互联网服务平台最基本的核心技术。

阿里云致力于打造公共、开放的云计算服务平台。阿里云将借助技术的创新,不断提升计算能力与规模效益,将云计算变成真正意义上的公共服务。与此同时,将通过 alibabacloud.com,用互联网的方式使得大家可以便捷的按需获取阿里云的云计算产品与服务。 阿里云希望更多的合作伙伴、中小企业、开发者能够受益于云计算带来的便利和价值,从而促进云生态系统的健康发展。

至2017年,阿里云付费用户数651,000+,用户总数2,300,000+。

关于云栖大会:由阿里巴巴集团主办,已经成为全球云计算TOP级峰会,汇聚DT时代最强大脑,描绘云计算发展趋势和蓝图,展现云计算、大数据、人工智能蓬勃发展的技术生态全景。2017云栖大会城市峰会将继续在深圳、南京、成都、上海、广州、苏州、北京举办。杭州云栖大会将于10月继续在中国杭州云栖小镇举办,打造年度最精彩的云计算盛会。

职位发布者:侯女士

阿里云计算有限公司

融资阶段:

公司规模:1000~9999人

相似职位: