LLM时代AI加速芯片面临的挑战
算法需求
- 普遍使用MOE架构降低算力需求
- 高度定制化的集成度高的大算子
- 定制化的核心Attention加速算子:FlashAttention
- KVcache的压缩、加速等: Deepseek的Flash MLA
- 混合精度及量化
- 低精度支持及累加精度保证
- 多卡互联技术,包括快速的分布式all to all的性能,通信异步化,不占用计算核,最大化带宽利用率
- 更低的latency,更高的throughput
- 异步通信,动态执行
- 复杂的存储地址控制,复杂的MMU系统
- Atomic的支持,用于复杂算法的reduction运算支持
未来算法需求
- 动态全局随机访问的需求
- MOE算法需求
- 稀疏算法
可能的方法
- 定义复杂指令,单指令支持操作数的Dequent,GEMM计算
- 设计很大的L1甚至是L0,用于存储Tensor计算的左右值
可能的方向
- 超大的dot变成多个小dot的并行
- 固定尺寸的dot,和输入无关的dot
- 所有模型使用一种固定的层,同一种组件,不要很多种类,很多奇怪的linear