AI加速芯片架构的动态性支持讨论 动态性的级别划分 数据内容不同动态 算子数据的尺寸动态 大部分非GPGPU的DSA架构都支持得不好,有各种问题 同步开销大,同步资源管理难,存储资源浪费,程序代码大 等问题 不同的数据地址的程序代码动态 通过条件执行、跳转执行支持的程序动态 GPGPU类支持 自动生成、调用不用的单元的代码动态 很少在加速卡上实现,大部分是CPU可以实现 不同架构对动态性支持的区别 SIMT类型的GPGPU 华为和寒武纪类的DSA NPU推理DSA 类似燧原的SPMT