LLM时代AI加速芯片面临的挑战

算法需求

普遍使用MOE架构降低算力需求

定制化的核心Attention加速算子：FlashAttention

KVcache的压缩、加速等： Deepseek的Flash MLA

混合精度及量化

可能的方法

定义复杂指令，单指令支持操作数的Dequent，GEMM计算

设计很大的L1甚至是L0，用于存储Tensor计算的左右值

Back to top