Loading...
笔者在工作的过程中,使用Triton和cuda实现或优化过rwkv6的内核,中途也遇到过一些数值精度的陷阱。于是提起用Triton实现深度学习常见的op的心思,虽然有一些实现的计划,从简单到复杂一步步入门常见kernel的实现,但是正好朋友在FPGA上面实现卷积算法,于是今天就带着读者了解一下什么是卷积,如何高效率的实现卷积,当然,如果笔者数学功底还在的话,会带着实现卷积的反向传播。
使用方法没有任何改变,只是个修复版本。
自从有了自己的NAS,就陆陆续续建立了一些服务,现在整理分享给大家。
哀吾生之须臾 ,羡长江之无穷
NPU 作为一种主要采用 ASIC 技术的专用嵌入式神经网络芯片,使用 DSA (Domain Specific Architecture) 克服了 CP...