动态算法 Transformer类算法,依赖大维度的信息变换,相关性爆炸 也就是尺寸很大的矩阵乘法,虽然很适合现代GPU的加速 大的GEMM提供了非常大的状态空间,目标是包含所有的维度 使用固定路径的权重链路来完整得表达信息变换的过程 不管输入是什么,都要经过固定的计算路径,都要和所有的权重计算 虽然MoE,会有一定的动态性 但是目前还不明确能不能继续缩小激活比例 动态选择的空间不大 虽然有些策略已经减小部分 attention 分层,分组MLP等等 但是,还是会造成相关性爆炸 大范围Reduce类操作的依赖 整个矩阵维度的累加 softmax 交叉信息爆炸 小GEMM+动态权重 使用很小的局部维度信息根据实际信息,动态得进行变换和按需要进行交叉、汇总、合并