网络研发AI集群通信优化技术专家-北京/杭州

1、技术方案设计

• 调研AI大模型训练及推理的前沿技术发展,分析前沿技术和网络的关联以及优化方向;

• 分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化;

2、技术实现

• 负责AI计算系统的通信库研发、测试、以及交付与支持

• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现

• 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等

• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署

• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等

3、稳定性和性能优化

• 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠

• 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能

4、技术预研

• 分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能

5、技术规划

• 理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

职位描述

• 强烈的自我驱动力,对新技术有求知欲望和自学动力,可以理论结合实践方式,快速的上手新的知识;

• 严谨的工作态度,尤其在面对实验和测试数据和理论分析时,始终保持批判性思维,消除实验误差,保证实验和理论相符;

• 有较强的对外沟通意愿,可以和上下游团队形成良好的协作关系,共同解决技术问题,推动项目落地;

•3 年以上Coding经验

• 对所负责的领域能够作为owner,充分理解自己团队在生产关系大图中的定位,与业务和协作团队关系,形成良好协作,及时解决职责/认知冲突类问题并驱动合理方案落地;

• 熟悉技术领域相关的前沿信息渠道,定期形成相关的前沿研究文档沉淀并能在团队中进行技术分享

• 熟悉竞对和对标产品的核心技术指标、优劣势对比,对我们如何追赶和保持优势有一定的理解

• 在架构设计中能够梳理明确模块的增删改,并据此分解开发工作项和相互依赖,考虑技术投入产出比(ROI)、性能优化

• 精通工作中使用的技术栈,在设计、架构、并发、分布式、数据等一个或多个技术领域达到专家水平,能够识别并准确解决问题

• 对自己负责的研发模块具备快速上线、响应、应急处理能力

公司地点:北京朝阳区阿里巴巴·北京朝阳科技园C区C4

公司简介:

阿里云——为了无法计算的价值

阿里云计算有限公司成立于2009年9月10日,在杭州、北京和硅谷等地设有研发中心和运营机构。阿里云的目标是打造全球领先的云计算服务平台。在未来的互联网中,云计算将会成为一种随时、随地,并根据需要而提供的公共服务。高效的绿色数据中心以及能支持不同互联网应用的大规模分布式存储和计算是营造下一代互联网服务平台最基本的核心技术。

阿里云致力于打造公共、开放的云计算服务平台。阿里云将借助技术的创新,不断提升计算能力与规模效益,将云计算变成真正意义上的公共服务。与此同时,将通过 alibabacloud.com,用互联网的方式使得大家可以便捷的按需获取阿里云的云计算产品与服务。 阿里云希望更多的合作伙伴、中小企业、开发者能够受益于云计算带来的便利和价值,从而促进云生态系统的健康发展。

至2017年,阿里云付费用户数651,000+,用户总数2,300,000+。

关于云栖大会:由阿里巴巴集团主办,已经成为全球云计算TOP级峰会,汇聚DT时代最强大脑,描绘云计算发展趋势和蓝图,展现云计算、大数据、人工智能蓬勃发展的技术生态全景。2017云栖大会城市峰会将继续在深圳、南京、成都、上海、广州、苏州、北京举办。杭州云栖大会将于10月继续在中国杭州云栖小镇举办,打造年度最精彩的云计算盛会。

职位发布者:侯女士

阿里云计算有限公司

融资阶段:

公司规模:1000~9999人

相似职位: