LLM时代AI加速芯片面临的挑战

算法需求

普遍使用MOE架构降低算力需求
高度定制化的集成度高的大算子
1. 定制化的核心Attention加速算子：FlashAttention
KVcache的压缩、加速等： Deepseek的Flash MLA
混合精度及量化
低精度支持及累加精度保证
多卡互联技术，包括快速的分布式all to all的性能，通信异步化，不占用计算核，最大化带宽利用率
1. 更低的latency，更高的throughput
2. 异步通信，动态执行
复杂的存储地址控制，复杂的MMU系统
Atomic的支持，用于复杂算法的reduction运算支持

未来算法需求

动态全局随机访问的需求
1. MOE算法需求
2. 稀疏算法

可能的方法

定义复杂指令，单指令支持操作数的Dequent，GEMM计算
设计很大的L1甚至是L0，用于存储Tensor计算的左右值

可能的方向

超大的dot变成多个小dot的并行

固定尺寸的dot，和输入无关的dot

所有模型使用一种固定的层，同一种组件，不要很多种类，很多奇怪的linear

Back to top