信息空间的映射
多层映射(等高线)
- 每一层的所有的hidden status的集合,表示了当前的所有信息(语义)
- 每经过一层相当于把一种向量空间的表示,映射到另外一个向量空间
- 每一次梯度下降都优化一点映射关系,增加不同类的距离,减少同类的距离
- 对输入的hidden status理解得越深刻(抽象得越高级),映射分隔得越准确,输出的结果越好
- 每一次梯度下降都优化一点映射关系,增加不同类的距离,减少同类的距离
- 经过多次映射之后就能直接得到结果需要的index
- 非常大的线性映射的参数:DeekseekV3 671B中,大头(98%)参数是,256专家*60层*44MB=670GB
- 每个expert有三个linear,总参数量 = hidden_size * moe_intermediate_size * 3层 = 7168 * 2048 * 3 = 44MB