Skip to main content

Transformer解析

  1. 精细的抽象,记忆空间特别大
  2. 在nlp问题里面,通过逐个处理新的token,递归得进行抽象

缺点

  1. 记忆和人类不一致,而且没有统一的表达,不通用
  2. 没有自主意识,还是在算概率,逃不开数学上的特征分割,虽然不能证明当前的数学基础、梯度下降是错误的,但是AGI肯定不是只有这些,AGI更多的是一种复杂的工程,而不是简单几个公式
  3. Transformer架构个在处理长上下文时,会受到二次复杂度(浪费算力),以及长度外推能力弱的限制。

Attention

  1. 每层每个token计算的输入是前面所有token的key和value
    1. 从信息流的角度来看,不是一个树形的拓扑
      1. 实际上一段自然语言通过字、词、短语、句子等层级结构组合出表达的语义
      2. 类比于卷积的空间约束,自然语言语义应该需要树形层级结构的约束
  2. 多层之间不能共享权重
  3. 动态性欠缺
  4. 随序列长度增加而变慢的attention机制
    1. 从信息量来说,句子长了,包含的信息肯定是变多了,序列长度是固定的,但是可以是序列长度的1/N
      1. RWKV的固定大小的status存储器也是不合理的(不考虑外部记忆)
    2. 相对于人脑,每个新的token都要重新计算一遍底层的语义,而不是直接根据前面语句的总结进行调整
    3. 缺乏更高维度的动态性
      1. MOE、CoT、稀疏 都能提高动态性能力
  5. 速度显存恒定的FFN全连接网络

System2

  1. Transformer被认为做不了System 2,现在RL+CoT可能推翻了这种说法

接口API

  1. transformer利用了语言的特性,在attention中间,使用自然语言作为通用的输入输出接口和表达
  2. attention中间的输入输出都是用于表达语言的一个序列的特征。
  3. 这个序列非常重要,因为序列都是由编码的token组成,可以非常灵活得表示一个非常复杂的语义
  4. 那么这个跟语言其实是有异曲同工的效果,语言也使用
  5. 很多个文字来表达一个语意,每个文字的空间不是很大
  6. 搜索空间
    1. 就比如说汉字也就几千个字  transformer相当于是在模仿语言,
    2. 把整个模型的搜索空间限制为自然语言这个尺度(约束),极大缩小了模型的搜索空间