Skip to main content

LLM信息空间的映射

乘法

  1. 两个32bit的浮点数乘法,相当于32位的bit向量做空间映射
  2. 每个bit代表了特殊的含义,指数、尾数以及对应的档位
  3. 乘法不能充分利用32位的所有表达空间,精度越低的数据信息利用率越高

多层映射(等高线)

image.png

  1. 每一层的所有的hidden status的集合,表示了当前的所有信息(语义)
  2. 每经过一层相当于把一种向量空间的表示,映射到另外一个向量空间
    1. 每一次梯度下降都优化一点映射关系,增加不同类的距离,减少同类的距离
    2. 对输入的hidden status理解得越深刻(抽象得越高级),映射分隔得越准确,输出的结果越好
  3. 经过多次映射之后就能直接得到结果需要的index
  4. 非常大的线性映射的参数:DeekseekV3 671B中,大头(98%)参数是,256专家*60层*44MB=670GB
  5. 每个expert有三个linear,总参数量 = hidden_size * moe_intermediate_size * 3层 = 7168 * 2048 * 3 = 44MB

线性映射 非线性映射

image.png

非线性Dot

  1. 对B进行非线性映射,A = B *(C+D)  等价于  A = B*C + B*D   ,ABCD都是矩阵
    1. 实际上增加了映射的空间灵活度,实验下来,使用得当可能可以提升精度
  2. ResNet的典型 A = B*C + B
    1. 显然D是1,不对B进行改变

LLM的映射行为

  1. 每一层都根据前面的数据映射到另外一个表示空间
  2. 多层的LLM可以等价于一个大型卡罗搜索树
    1. 剪枝的,均匀宽度的
    2. 大规模参数,多维度
  3. 行为可以比喻为Plinko​​(中文常译为“钉板游戏”或“弹珠盘”)
    1. 从上到下不断在转换在对应空间内的分类
    2. 当前layer的所有token的所有hidden status的所有可能数值共同表示了所有的可能分类
    3. 最终的hidden status都对应了一个token
  4. 梯度下降怎么增强模型对高层级语义的敏感性,分类准确度?
    1. 引导模型按照高层极语义进行分割,而不是在低层级打转

image.png

信息的表示

  1. 所有内部节点表示:同层的所有前面token的总结(映射)的结果
    1. 矛盾:既要表达当前节点的局部语义,又要表达到当前token的整体语义