LLM信息空间的映射
乘法
- 两个32bit的浮点数乘法,相当于32位的bit向量做空间映射
- 每个bit代表了特殊的含义,指数、尾数以及对应的档位
- 乘法不能充分利用32位的所有表达空间,精度越低的数据信息利用率越高
多层映射(等高线)
- 每一层的所有的hidden status的集合,表示了当前的所有信息(语义)
- 每经过一层相当于把一种向量空间的表示,映射到另外一个向量空间
- 每一次梯度下降都优化一点映射关系,增加不同类的距离,减少同类的距离
- 对输入的hidden status理解得越深刻(抽象得越高级),映射分隔得越准确,输出的结果越好
- 每一次梯度下降都优化一点映射关系,增加不同类的距离,减少同类的距离
- 经过多次映射之后就能直接得到结果需要的index
- 非常大的线性映射的参数:DeekseekV3 671B中,大头(98%)参数是,256专家*60层*44MB=670GB
- 每个expert有三个linear,总参数量 = hidden_size * moe_intermediate_size * 3层 = 7168 * 2048 * 3 = 44MB
线性映射 非线性映射
LLM的映射行为
- 每一层都根据前面的数据映射到另外一个表示空间
- 多层的LLM可以等价于一个模特卡罗搜索树
- 剪枝的
- 大规模参数,多维度
- 行为可以比喻为Plinko(中文常译为“钉板游戏”或“弹珠盘”)
- 从上到下不断在转换在对应空间内的分类
- hidden status表示所有可能数值就是分类总数
- 最终的hidden status都对应了一个token