信息空间的映射

每一层的所有的hidden status的集合，表示了当前的所有信息（语义）
每经过一层相当于把一种向量空间的表示，映射到另外一个向量空间
1. 每一次梯度下降都优化一点映射关系，增加不同类的距离，减少同类的距离
2. 对输入的hidden status理解得越深刻（抽象得越高级），映射分隔得越准确，输出的结果越好
经过多次映射之后就能直接得到结果需要的index
非常大的线性映射的参数：DeekseekV3 671B中，大头（98%）参数是，256专家*60层*44MB=670GB
每个expert有三个linear，总参数量 = hidden_size * moe_intermediate_size * 3层 = 7168 * 2048 * 3 = 44MB