LLM时代AI加速芯片面临的挑战

算法需求

普遍使用MOE架构降低算力需求
高度定制化的集成度高的大算子
1. 定制化的核心Attention加速算子：FlashAttention
KVcache的压缩、加速等： Deepseek的Flash MLA
混合精度及量化
低精度支持及累加精度保证
多卡互联技术，包括快速的分布式all to all的性能，通信异步化，不占用计算核，最大化带宽利用率
1. 更低的latency，更高的throughput
2. 异步通信，动态执行
复杂的存储地址控制，复杂的MMU系统
Atomic的支持，用于复杂算法的reduction运算支持

可能的方法

定义复杂指令，单指令支持操作数的Dequent，GEMM计算
设计很大的L1甚至是L0，用于存储Tensor计算的左右值

Back to top