读文章
https://mp.weixin.qq.com/s/miEziKZNdlnRym0qJlvqLw
- 内存墙问题既涉及有限的容量、内存传输带宽,也涉及其延迟(比带宽更难改善)
- 传统趋势表明,新的 NN 模型架构是根据研究人员在单芯片内的访问权限而开发的,而不是使用复杂的分布式内存方法
- 事实上,人工智能加速器的重大突破之一就是使用半精度(FP16)算术,这使得硬件计算能力提高了 10 倍以上。然而,利用当前的优化方法,在不降低精度的情况下进一步降低精度(从半精度降低到 INT8)一直是个难题。最近一个很有前途的趋势是混合使用 FP8 和 FP16(甚至最近的 FP4)。
- 在 NLP 中,训练最新 SOTA Trans former 模型的计算成本以 750×/2yrs 的速度递增,模型参数大小以 410×/2yrs 的速度递增。相比之下,硬件 FLOPS 峰值的扩展速度为 3.0×/2yrs,而 DRAM 和互连带宽的扩展速度分别为 1.6×/2yrs 和 1.4×/2yrs,越来越落后。
DRAM模拟器 https://people.inf.ethz.ch/omutlu/pub/Ramulator2_arxiv23.pdf
感知机 KAN MLP https://mp.weixin.qq.com/s/Hrp5v5enYlx3cVwtG63d6w
KAN 的核心创新在于,它不是像传统 MLP 那样在网络的神经元上应用固定的激活函数,而是在权重上应用可学习的激活函数。这些一维激活函数被参数化为样条曲线,从而使得网络能够以一种更灵活、更接近 Kolmogorov-Arnold 表示定理的方式来处理和学习输入数据的复杂关系。这种设计使得 KAN 能够以一种理论上更高效、更通用的方式逼近复杂的函数关系,理论上可能在某些任务上超越了 MLP 的性能。