LLM信息空间的映射

乘法

两个32bit的浮点数乘法，相当于32位的bit向量做空间映射
每个bit代表了特殊的含义，指数、尾数以及对应的档位
乘法不能充分利用32位的所有表达空间，精度越低的数据信息利用率越高

多层映射（等高线）

每一层的所有的hidden status的集合，表示了当前的所有信息（语义）
每经过一层相当于把一种向量空间的表示，映射到另外一个向量空间
1. 每一次梯度下降都优化一点映射关系，增加不同类的距离，减少同类的距离
2. 对输入的hidden status理解得越深刻（抽象得越高级），映射分隔得越准确，输出的结果越好
经过多次映射之后就能直接得到结果需要的index
非常大的线性映射的参数：DeekseekV3 671B中，大头（98%）参数是，256专家*60层*44MB=670GB
每个expert有三个linear，总参数量 = hidden_size * moe_intermediate_size * 3层 = 7168 * 2048 * 3 = 44MB

线性映射非线性映射

LLM的映射行为

每一层都根据前面的数据映射到另外一个表示空间
多层的LLM可以等价于一个模特卡罗搜索树
1. 剪枝的
2. 大规模参数，多维度
行为可以比喻为Plinko（中文常译为“钉板游戏”或“弹珠盘”）
1. 从上到下不断在转换在对应空间内的分类
2. hidden status表示所有可能数值就是分类总数
3. 最终的hidden status都对应了一个token

Back to top