Skip to main content
AGIX
View All
Search
Books
Log in
Info
Content
LLM时代AI加速芯片面临的挑战
Page Revisions
Revision #265 Changes
LLM时代AI加速芯片面临的挑战
算法需求
普遍使用MOE架构降低算力需求
定制化的核心Attention加速算子:FlashAttention
KVcache的压缩、加速等: Deepseek的Flash MLA
混合精度及量化
可能的方法
定义复杂指令,单指令支持操作数的Dequent,GEMM计算
设计很大的L1甚至是L0,用于存储Tensor计算的左右值
Back to top