AI加速芯片架构的动态性支持讨论
动态性的级别划分
数据内容不同动态
算子数据的尺寸动态
大部分非GPGPU的DSA架构都支持得不好,有各种问题
同步开销大,同步资源管理难,存储资源浪费,程序代码大 等问题
不同的数据地址的程序代码动态
通过条件执行、跳转执行支持的程序动态
GPGPU类支持
自动生成、调用不用的单元的代码动态
很少在加速卡上实现,大部分是CPU可以实现
不同架构对动态性支持的区别
SIMT类型的GPGPU
华为和寒武纪类的DSA
NPU推理DSA
类似燧原的SPMT
Revision #2
Created 2025-01-11 09:46:28 UTC by Colin
Updated 2026-04-29 07:33:19 UTC by Colin