NSA 稀疏注意力机制 by deepseek

NSA致力于实现硬件对齐的推理加速，通过特定的算法设计减少内存访问和硬件调度瓶颈

NSA的总体框架是通过更紧凑和信息密集的表示来替换原始的键值对

NSA有三种映射策略，分别是压缩（cmp）、选择（slc）和滑动窗口（win）。通过将不同策略得到的键值对进行组合

tokens压缩：通过将连续的键或值块聚合为块级表示，得到压缩后的键值，从而捕获整个块的信息

tokens选择：仅使用压缩键值可能会丢失重要的细粒度信息，因此需要选择性地保留单个键值

滑动窗口：为了防止局部模式主导学习过程，影响模型从压缩和选择tokens中学习，NSA引入了专门的滑动窗口分支来处理局部context

Back to top