Loading...
笔者在工作的过程中,使用Triton和cuda实现或优化过rwkv6的内核,中途也遇到过一些数值精度的陷阱。于是提起用Triton实现深度学习常见的op的心思,虽然有一些实现的计划,从简单到复杂一步步入门常见kernel的实现,但是正好朋友在FPGA上面实现卷积算法,于是今天就带着读者了解一下什么是卷积,如何高效率的实现卷积,当然,如果笔者数学功底还在的话,会带着实现卷积的反向传播。
使用方法没有任何改变,只是个修复版本。
SQLAlchemy ORM
TVM 是 acmer 陈天奇的作品,是一种用于CPU,GPU和专用加速器的开放式深度学习编译器堆栈。 它旨在缩小以生产力为中心的深度学习框架与以性能或效...
最近在中标麒麟这里修bug,因为主要负责的是鲲鹏920ARM平台,所以接触到华为的bug也比较多,这些bug出现以后也没有啥资料可以寻找,只能是解压安装包...