Skip to main content

动态算法

  1. 动态Transformer类算法
    1. 小GEMM替代,依赖GEMM
      1. 维度的信息变换,相关性爆炸
        1. Reduce欠缺
        2. 交叉信息爆炸 
        也就是尺寸很大的矩阵乘法,虽然很适合现代GPU的加速
      2. 大的GEMM提供了非常大的状态空间,目标是包含所有的维度
        1. 才能使用固定路径的权重链路来完整得表达信息变换的过程
          1. 不管输入是什么,都要经过固定的计算路径,都要和所有的权重计算
          2. 虽然MoE,会有一定的动态性
            1. 但是目前还不明确能不能继续缩小激活比例
            2. 动态选择的空间不大
        2. 虽然有些策略已经减小部分
          1. attention
          2. 分层,分组MLP等等
        3. 但是,还是会造成相关性爆炸
          1. 大范围Reduce类操作的依赖
            1. 整个矩阵维度的累加
            2. softmax
          2. 交叉信息爆炸
      3. 小GEMM+动态权重
        1. 使用很小的局部维度信息根据实际信息,动态得进行变换和按需要进行交叉、汇总、合并