Skip to main content

动态算法

  1. 动态算法
    1. 小GEMM替代大GEMM
      1. Transformer类算法,依赖大维度的信息变换,相关性爆炸
        1. Reduce欠缺也就是尺寸很大的矩阵乘法,虽然很适合现代GPU的加速
        2. 交叉信息爆炸大的GEMM提供了非常大的状态空间,目标是包含所有的维度
      2. 使用固定路径的权重链路来完整得表达信息变换的过程
        1. 不管输入是什么,都要经过固定的计算路径,都要和所有的权重计算
        虽然MoE,会有一定的动态性
          但是目前还不明确能不能继续缩小激活比例 动态选择的空间不大 大的GEMM提供了非常大的状态空间,目标是包含所有的维度虽然有些策略已经减小部分
          1. 才能使用固定路径的权重链路来完整得表达信息变换的过程attention
          分层,分组MLP等等 但是,还是会造成相关性爆炸
            大范围Reduce类操作的依赖
              整个矩阵维度的累加 softmax 交叉信息爆炸
              小GEMM+动态权重
              1. 使用很小的局部维度信息根据实际信息,动态得进行变换和按需要进行交叉、汇总、合并