LLM时代AI加速芯片面临的挑战

算法需求

普遍使用MOE架构降低算力需求
定制化的核心Attention加速算子：FlashAttention
KVcache的压缩、加速等： Deepseek的Flash MLA
混合精度及量化
低精度支持及累加精度保证
多卡互联技术，包括快速的分布式all to all的性能，通信异步化，不占用计算核，最大化带宽利用率

可能的方法

定义复杂指令，单指令支持操作数的Dequent，GEMM计算
设计很大的L1甚至是L0，用于存储Tensor计算的左右值

Back to top