主要职责:
1、负责公司大规模机器学习平台的后台系统设计和开发工作,持续提升平台易用性,降低机器学习应用门槛。
2、将平台和框架结合,通过任务调度,弹性容灾,性能优化等措施端到端提升深度学习的训练效率,涉及k8s/kubeflow、网络通信、分布式训练等。
3、设计和构建K8S场景下的资源调度系统,参与底层GPU训练资源的调度优化与管理。
4、参与海量数据导入,分布式存储、计算引擎及混合云部署以及AIGC的技术调研与攻关
5、研究分析业内AP平台产品,优化技术方案,改进产品功能,完善产品体验。
职位要求:
1、熟悉Golang/Python/Java VUE语言,良好的编程习惯。
2、熟悉Kubernetes,Docker等常见工具和框架,熟悉容器化与云原生技术。
3、熟悉模型开发部署基本流程,了解常见的机器学习算法。
4、具备机器学习平台开发及大规模训练推理(TesorRT,NCNN)经验优先,熟悉机器学习平台相关开源项目如:kubeflow volcano mlflow等
5、有大数据实时系统相关开发经验,熟悉Flume,Flink、Spark、Kafka、streamx、数据湖相关技术
6、有flink,flume、 streamx二次开发能力优先