Transformer解析

精细的抽象，记忆空间特别大
在nlp问题里面，通过逐个处理新的token，递归得进行抽象

欠缺点

记忆和人类不一致，而且没有统一的表达，不通用
没有自主意识，还是在算概率，逃不开数学上的特征分割，虽然不能证明当前的数学基础、梯度下降是错误的，但是AGI肯定不是只有这些，AGI更多的是一种复杂的工程，而不是简单几个公式
Transformer架构个在处理长上下文时，会受到二次复杂度（浪费算力），以及长度外推能力弱的限制。

Attention缺点

每层每个token计算的输入是前面所有token的key和value
1. 从信息流的角度来看，不是一个树形的拓扑
  1. 实际上一段自然语言通过字、词、短语、句子等层级结构组合出表达的语义
2. 多层之间不能共享权重
3. 动态性欠缺

接口API

transformer利用了语言的特性，在attention中间，使用自然语言作为通用的输入输出接口和表达
attention中间的输入输出都是用于表达语言的一个序列的特征。
这个序列非常重要，因为序列都是由编码的token组成，可以非常灵活得表示一个非常复杂的呃语义
那么这个跟语言其实是有异曲同工的效果，语言也使用
很多个文字来表达一个语意，每个文字的空间不是很大
搜索空间
1. 就比如说汉字也就几千个字 transformer相当于是在模仿语言，
2. 把整个模型的搜索空间限制为自然语言这个尺度（约束），极大缩小了模型的搜索空间

Back to top