动态算法
动态算法小GEMM替代大GEMM- Transformer类算法,依赖大维度的信息变换,相关性爆炸
Reduce欠缺也就是尺寸很大的矩阵乘法,虽然很适合现代GPU的加速交叉信息爆炸大的GEMM提供了非常大的状态空间,目标是包含所有的维度
- 使用固定路径的权重链路来完整得表达信息变换的过程
- 不管输入是什么,都要经过固定的计算路径,都要和所有的权重计算
才能使用固定路径的权重链路来完整得表达信息变换的过程attention
小GEMM+动态权重
- 使用很小的局部维度信息根据实际信息,动态得进行变换和按需要进行交叉、汇总、合并