Skip to main content

梯度下降-拟合高层次的信息

拟合高层次信息的体现

  1. 如果不能很好的拟合高层次的信息
    1. 容易出现过拟合现象
      1. dropout早期用于防止过拟合,适用于多epoch的场景,不适用于LLM
    2. 权重会反复摇摆,不能锁定高级的语义抽象,高级语义样本本来就少

不能拟合高层次信息的原因

  1. 信息不够,不直接
    1. RoPE替代绝对位置编码,提供了直接的相对位置关系,自然语言的相对位置非常重要
  2. 模型参数不够
  3. 模型结构不好
    1. 没有足够的非线性表达能力
      1. 需要合理的时候激活层,GELU、Relu、Swish差别不大,更多考虑性能
      2. 分组查询注意力GQA / MOE / 带门控的GLU(Gated Linear Unit)  能极大提高表达空间,用较少的参数
    2. 信息(层)映射的过渡不够平滑
      1. 旁路结构(ResNet)减少模型动态
      2. MultiHEAD
    3. 宽度vs深度
      1. 更深的模型表达更灵活,但训练更易不稳(梯度爆炸/消失),这正是RMSNorm与残差/捷径连接试图缓解的问题

      2. 更宽的架构在推理时通常更快,因为并行度更好。代价是更高显存占用

    4. 少量「大专家」vs 大量「小专家」
      1. 近来的趋势倾向于「更多、更小」的专家

image.png

image.png