Skip to main content

MLA by Deekseek

  1. MLA 的核心思想是通过低秩联合压缩技术,减少 K 和 V 矩阵的存储开销
  2. 相对于传统的MHA,主要引入了𝑊𝐷𝐾𝑉把ht压缩了,并在推理时候缓存压缩后的数据,而不是kv,kv是使用WUV/WUK和CtKV恢复

image.png

image.png