AI加速芯片架构的动态性支持讨论
动态性的级别划分
- 数据内容不同动态
- 算子数据的尺寸动态
- 大部分非GPGPU的DSA架构都支持得不好,有各种问题
- 同步开销大,同步资源管理难,存储资源浪费,程序代码大 等问题
- 不同的数据地址的程序代码动态
- 通过条件执行、跳转执行支持的程序动态
- GPGPU类支持
- 自动生成、调用不用的单元的代码动态
- 很少在加速卡上实现,大部分是CPU可以实现
不同架构对动态性支持的区别
- SIMT类型的GPGPU
- 华为和寒武纪类的DSA
- NPU推理DSA
- 类似燧原的SPMT
No Comments