NSA 稀疏注意力机制 by deepseek
NSA致力于实现硬件对齐的推理加速,通过特定的算法设计减少内存访问和硬件调度瓶颈
NSA的总体框架是通过更紧凑和信息密集的表示来替换原始的键值对
NSA有三种映射策略,分别是压缩(cmp)、选择(slc)和滑动窗口(win)。通过将不同策略得到的键值对进行组合
NSA致力于实现硬件对齐的推理加速,通过特定的算法设计减少内存访问和硬件调度瓶颈
NSA的总体框架是通过更紧凑和信息密集的表示来替换原始的键值对
NSA有三种映射策略,分别是压缩(cmp)、选择(slc)和滑动窗口(win)。通过将不同策略得到的键值对进行组合