Transformer黑盒
问题
- Transformer是怎么组织和表达自然语言的?
可能的方向
- 通过不断的训练、运行来对模型的权重进行解析--逆训练
- 生成出一系列的最核心的,最有效的样本的数据集,用于蒸馏其他的模型
- 从单点,添加探针的方式来推断输出的逻辑
- 特定样本下各个权重的梯度(对结果的影响力)组成一张针对一个样本的逻辑地图
- 通过统计大量样本在单点的情况分析出模型的抽象图
- 从最后的输出逻辑往前面推理的方式来推断模型的输出逻辑
- 找到整个模型的最边缘的知识点,最终的知识点,不会被其他知识使用的知识点,唯一的
- 判断激活这个知识点的输入的概率的分布情况
《On the Biology of a Large Language Model》
要求回答“达拉斯所在的州,州府是哪个城市?” 然而归因图显示模型内部的情况是:
然后 Texas + capital → 推动输出 “Austin”。