Skip to main content

LLM时代AI加速芯片面临的挑战

算法需求

  1. 普遍使用MOE架构降低算力需求
  2. 高度定制化的集成度高的大算子
    1. 定制化的核心Attention加速算子:FlashAttention
    KVcache的压缩、加速等: Deepseek的Flash MLA 混合精度及量化 低精度支持及累加精度保证 多卡互联技术,包括快速的分布式all to all的性能,通信异步化,不占用计算核,最大化带宽利用率
      更低的latency,更高的throughput 异步通信,动态执行 复杂的存储地址控制,复杂的MMU系统

      可能的方法

      1. 定义复杂指令,单指令支持操作数的Dequent,GEMM计算
      2. 设计很大的L1甚至是L0,用于存储Tensor计算的左右值