Skip to main content
AGIX
View All
Search
Books
Log in
Info
Content
Transformer
MLA by Deekseek
Page Revisions
Revision #359
MLA by Deekseek
MLA 的核心思想是通过低秩联合压缩技术,减少 K 和 V 矩阵的存储开销
相对于传统的MHA,主要引入了𝑊
𝐷𝐾𝑉
把h
t
压缩了,并在推理时候缓存压缩后的数据,而不是kv,kv是使用W
UV
/W
UK
和C
t
KV
恢复
Back to top