职位描述:
负责在各种硬件加速平台上编写以及优化深度学习框架内相关的算子,包含卷积、 矩阵乘等,探索硬件加速相关的算子的优化以及实现。
职位要求:
1.熟悉GPU硬件, 熟悉gpu内核函数优化, 熟悉主流GPU开发语言CUDA(PTX, SASS)/OPENCL中的一种或者多种;
2.熟悉常用的卷积计算加速方法,如gemm、winograd算法等;熟悉cutlass等开源矩阵乘法的库优先。