Loading...
笔者在工作的过程中,使用Triton和cuda实现或优化过rwkv6的内核,中途也遇到过一些数值精度的陷阱。于是提起用Triton实现深度学习常见的op的心思,虽然有一些实现的计划,从简单到复杂一步步入门常见kernel的实现,但是正好朋友在FPGA上面实现卷积算法,于是今天就带着读者了解一下什么是卷积,如何高效率的实现卷积,当然,如果笔者数学功底还在的话,会带着实现卷积的反向传播。