Mamba
SSM
Mamba的定位
- SSM/S4的中间变量为定长,所以必须使用最大的容量来表达整个句子的信息,要不然句子长了就存储不下,这又导致训练难
- SSM/S4缺乏动态性(attention会选择/过滤信息,达到压缩的目的)抽象的效率不高
- Transformer能够在上下文窗口中密集地传递信息的能力,对单点信息的表达效率不够,长序列时计算效率、存储效率变得低下
- 这两个问题不矛盾。
- Manba和Transformer的区别只是,随着新的输入存储的所有中间状态是不是都被更新,Manba是更新一个总的统一的中间状态,而Transformer会增加一个新的状态,旧的状态可以保存于KV cache里面。
- Manba解释那么多理论,没有从第一性原理来理解,有点本末倒置
SSM + 选择 (S6) 该变体包括选择机制,为参数添加输入依赖性 B
和 C
,和一个延迟参数 Δ
。这允许模型有选择地关注输入序列的某些部分 x
。考虑到选择,对参数进行离散化,并使用扫描操作以随时间变化的方式应用 SSM 操作,该扫描操作顺序处理元素,随时间动态调整焦点。
在实际的计算上,selection其实通过一个elementwise的乘法来表达,对每个权重值乘以权重来达到选择的目的。