Skip to main content

梯度下降-拟合高层次的信息

拟合高层次信息的体现

  1. 如果不能很好的拟合高层次的信息
    1. 容易出现过拟合现象
      1. dropout早期用于防止过拟合,适用于多epoch的场景,不适用于LLM
    2. 权重会反复摇摆,不能锁定高级的语义抽象,高级语义样本本来就少
      1. 每次梯度下降是每个权重单独改变,不能确保综合效果比原来更好 ???

影响因素

  1. 模型的表达空间的大小
  2. 高层级数据的规模

不能拟合高层次信息的原因

  1. 信息不够,不直接
    1. RoPE替代绝对位置编码,提供了直接的相对位置关系,自然语言的相对位置非常重要
  2. 模型参数不够
  3. 模型结构不好
    1. 没有足够的非线性表达能力
      1. 需要合理的时候激活层,GELU、Relu、Swish差别不大,更多考虑性能
      2. 分组查询注意力GQA / MOE / 带门控的GLU(Gated Linear Unit)  能极大提高表达空间,用较少的参数
    2. 信息(层)映射的过渡不够平滑
      1. 旁路结构(ResNet)减少模型动态
      2. MultiHEAD
    3. 宽度vs深度
      1. 更深的模型表达更灵活,但训练更易不稳(梯度爆炸/消失),这正是RMSNorm与残差/捷径连接试图缓解的问题

      2. 更宽的架构在推理时通常更快,因为并行度更好。代价是更高显存占用

    4. 少量「大专家」vs 大量「小专家」
      1. 近来的趋势倾向于「更多、更小」的专家

image.png

image.png