Skip to main content

Mamba

SSM

image.png

image.png

image.png

Mamba的定位

  1. SSM/S4的中间变量为定长,所以必须使用最大的容量来表达整个句子的信息,要不然句子长了就存储不下,这又导致训练难
  2. SSM/S4缺乏动态性(attention会选择/过滤信息,达到压缩的目的)抽象的效率不高
  3. Transformer能够在上下文窗口中密集地传递信息的能力,对单点信息的表达效率不够,长序列时计算效率、存储效率变得低下
  4. 这两个问题不矛盾。
  5. Manba和Transformer的区别只是,随着新的输入存储的所有中间状态是不是都被更新,Manba是更新一个总的统一的中间状态,而Transformer会增加一个新的状态,旧的状态可以保存于KV cache里面。
  6. Manba解释那么多理论,没有从第一性原理来理解,有点本末倒置

image.png

image.png

image.png

image.png

SSM + 选择 (S6) 该变体包括选择机制,为参数添加输入依赖性 B 和 C,和一个延迟参数 Δ。这允许模型有选择地关注输入序列的某些部分 x。考虑到选择,对参数进行离散化,并使用扫描操作以随时间变化的方式应用 SSM 操作,该扫描操作顺序处理元素,随时间动态调整焦点。

在实际的计算上,selection其实通过一个elementwise的乘法来表达,对每个权重值乘以权重来达到选择的目的。

image.png

image.png

https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mamba-and-state#%C2%A7what-is-a-state-space

Vision Mamba