AI加速芯片架构的动态性支持讨论

动态性的级别划分

数据内容不同动态
算子数据的尺寸动态
1. 大部分非GPGPU的DSA架构都支持得不好，有各种问题
2. 同步开销大，同步资源管理难，存储资源浪费，程序代码大等问题
不同的数据地址的程序代码动态
通过条件执行、跳转执行支持的程序动态
1. GPGPU类支持
自动生成、调用不用的单元的代码动态
1. 很少在加速卡上实现，大部分是CPU可以实现

不同架构对动态性支持的区别

SIMT类型的GPGPU
华为和寒武纪类的DSA
NPU推理DSA
类似燧原的SPMT

No comments to display

Back to top