LLM时代AI加速芯片面临的挑战

KVcache的压缩、加速等： Deepseek的Flash MLA 混合精度及量化低精度支持及累加精度保证多卡互联技术，包括快速的分布式all to all的性能，通信异步化，不占用计算核，最大化带宽利用率

更低的latency，更高的throughput 异步通信，动态执行复杂的存储地址控制，复杂的MMU系统