Skip to main content

LLM时代AI加速芯片面临的挑战

算法需求

  1. 普遍使用MOE架构降低算力需求
  2. 定制化的核心Attention加速算子:FlashAttention
  3. KVcache的压缩、加速等: Deepseek的Flash MLA
  4. 混合精度及量化

 

可能的方法

  1. 定义复杂指令,单指令支持操作数的Dequent,GEMM计算
  2. 设计很大的L1甚至是L0,用于存储Tensor计算的左右值