Skip to main content

信息空间的映射

乘法

    两个32bit的浮点数乘法,相当于32位的bit向量做空间映射 每个bit代表了特殊的含义,指数、尾数以及对应的档位
    乘法不能充分利用32位的所有表达空间,精度越低的数据信息利用率越高

    多层映射(等高线)

    image.png

    1. 每一层的所有的hidden status的集合,表示了当前的所有信息(语义)
    2. 每经过一层相当于把一种向量空间的表示,映射到另外一个向量空间
      1. 每一次梯度下降都优化一点映射关系,增加不同类的距离,减少同类的距离
      2. 对输入的hidden status理解得越深刻(抽象得越高级),映射分隔得越准确,输出的结果越好
    3. 经过多次映射之后就能直接得到结果需要的index
    4. 非常大的线性映射的参数:DeekseekV3 671B中,大头(98%)参数是,256专家*60层*44MB=670GB
    5. 每个expert有三个linear,总参数量 = hidden_size * moe_intermediate_size * 3层 = 7168 * 2048 * 3 = 44MB

    线性映射 非线性映射

    image.png