Recently Updated Pages
Adam AdamW
Adam核心计算流程 初始化参数 初始化一阶矩(动量)向量 m0=0 和二阶矩(梯度平方的指数平均)向量 v0=0。 设定超参数:学习率 η(默认0.001)、动量衰减因...
MLA by Deekseek
MLA 的核心思想是通过低秩联合压缩技术,减少 K 和 V 矩阵的存储开销 相对于传统的MHA,主要引入了𝑊𝐷𝐾𝑉把ht压缩了,并在推理时候缓存压缩后的数据,而不是kv,kv是使用WU...
FlashAttention
Attention计算 对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x...
NSA 稀疏注意力机制 by deepseek
NSA致力于实现硬件对齐的推理加速,通过特定的算法设计减少内存访问和硬件调度瓶颈,NSA 速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍 ...
NoC
OpenSMART https://github.com/hyoukjun/OpenSMART/tree/master connect https://users.ece.cmu.edu/...
RAM
DRAM 电容 带宽不是很高 需要刷新,会有颠簸 SRAM 面积和功耗不能和工艺平行 类型 Cpu register Flip Flops 每个bit都有一读一写 ...
Cache写机制 Write-through与Write-back
Cache写机制分为write through和write back两种。Write-through: Write is done synchronously both to the cache...
AI计算需求的抽象
算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM => Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : R...
哲学观点
哲学的本质本身就是一个哲学问题 胡适的描述是:凡研究人生切要的问题,从根本上着想,要寻一个根本的解决:这种学问叫做哲学 对哲学的主题亦存在许多看法。一些人认为哲学是对问题本身过程的观察。[1...
einsum
两个基本概念 自由索引(Free indices)和求和索引(Summation indices): 自由索引,出现在箭头右边的索引,比如上面的例子就是 i 和 j; 求和索引,只出现...
建模的方法
使用python语法进行module的定义 python语法用来描述module之间的关系和 定义latch的存储器 定义module的算法和输入输出 配置一些固定的规格参数 ...
抽象
分层LLM推理与Scaling思维模板
通过复杂的人工设计的算法影响模型的功能和性能 人类总是能在更高的维度来指导模型 模型的自我学习能力还是不理想 最后的瓶颈会是人类设计算法的复杂性,需要另外一种更通用、简单的方法来替代T...
具有意识的prompt
当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处...
神经网络的逻辑
量化 量化不是没有代价。Llama3模型的量化效果比Llama2模型要差,量化过程中的质量损失更大。 直觉是,一个训练不足的模型受到量化的影响较小,因为其训练过程并没有充分利用每一个权重。关...
x86的多核宽松内存一致性模型
被修饰的汇编指令成为“原子的” 本身是原子指令,比如“XCHG”和“XADD”汇编指令 本身不是原子指令,但是被LOCK指令前缀修饰后成为原子指令,比如LOCK CMPXCHG 被...
TSO(Total Store Ordering)内存模型
TSO(Total Store Ordering)是一个被广泛使用的内存模型 并在x86架构中使用,RISC-V也提供了TSO扩展,即RVTSO,人们普遍认为x86内存模型等同于TSO,然...
理解《思考,快与慢》
卡尼曼如此形容两大思考模式 系统一:自动化的运作,非常快、不费力气,即使要费力,也很少,它不受自主控制。以下为系统一的工作内容,大致依复杂度排序如下: 判断一个物体较另一个物体距...
AI加速芯片上的2D单元
卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...
为什么Pytorch开始制约AI了
这个想法比较超前了,但是已经有苗头了 pytorch已经显得臃肿,不适合大模型的特定需求 需求变化了,已经不是CNN的时代了,虽然在拼命搞静态图和并行库 一个开源框架统一市场后一段...