Skip to main content

Recently Updated Pages

Adam AdamW

算法&模型

Adam核心计算流程 ​初始化参数 初始化一阶矩(动量)向量 m0​=0 和二阶矩(梯度平方的指数平均)向量 v0​=0。 设定超参数:学习率 η(默认0.001)、动量衰减因...

Updated 8 months ago by Colin

MLA by Deekseek

算法&模型 Transformer

MLA 的核心思想是通过低秩联合压缩技术,减少 K 和 V 矩阵的存储开销 相对于传统的MHA,主要引入了𝑊𝐷𝐾𝑉把ht压缩了,并在推理时候缓存压缩后的数据,而不是kv,kv是使用WU...

Updated 8 months ago by Colin

FlashAttention

算法&模型 Transformer

Attention计算 对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x...

Updated 8 months ago by Colin

NSA 稀疏注意力机制 by deepseek

算法&模型 Transformer

NSA致力于实现硬件对齐的推理加速,通过特定的算法设计减少内存访问和硬件调度瓶颈,NSA 速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍 ...

Updated 8 months ago by Colin

NoC

计算机体系结构

OpenSMART https://github.com/hyoukjun/OpenSMART/tree/master connect https://users.ece.cmu.edu/...

Updated 8 months ago by Colin

RAM

计算机体系结构

DRAM 电容 带宽不是很高 需要刷新,会有颠簸 SRAM 面积和功耗不能和工艺平行 类型 Cpu register Flip Flops 每个bit都有一读一写 ...

Updated 8 months ago by Colin

Cache写机制 Write-through与Write-back

计算机体系结构

Cache写机制分为write through和write back两种。Write-through: Write is done synchronously both to the cache...

Updated 8 months ago by Colin

AI计算需求的抽象

AI加速芯片

算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM  =>  Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : R...

Updated 8 months ago by Colin

哲学观点

基本问题

哲学的本质本身就是一个哲学问题 胡适的描述是:凡研究人生切要的问题,从根本上着想,要寻一个根本的解决:这种学问叫做哲学 对哲学的主题亦存在许多看法。一些人认为哲学是对问题本身过程的观察。[1...

Updated 8 months ago by Colin

einsum

计算机体系结构

两个基本概念 自由索引(Free indices)和求和索引(Summation indices): 自由索引,出现在箭头右边的索引,比如上面的例子就是 i 和 j; 求和索引,只出现...

Updated 9 months ago by Colin

建模的方法

AI加速芯片 仿真建模

使用python语法进行module的定义 python语法用来描述module之间的关系和 定义latch的存储器 定义module的算法和输入输出 配置一些固定的规格参数 ...

Updated 9 months ago by Colin

抽象

基本问题

Updated 9 months ago by Colin

分层LLM推理与Scaling思维模板

算法&模型 TTS:Test-Time Scaling

通过复杂的人工设计的算法影响模型的功能和性能 人类总是能在更高的维度来指导模型 模型的自我学习能力还是不理想 最后的瓶颈会是人类设计算法的复杂性,需要另外一种更通用、简单的方法来替代T...

Updated 9 months ago by Colin

具有意识的prompt

算法&模型

当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处...

Updated 9 months ago by Colin

神经网络的逻辑

算法&模型 Transformer

量化 量化不是没有代价。Llama3模型的量化效果比Llama2模型要差,量化过程中的质量损失更大。 直觉是,一个训练不足的模型受到量化的影响较小,因为其训练过程并没有充分利用每一个权重。关...

Updated 9 months ago by Colin

x86的多核宽松内存一致性模型

计算机体系结构 Memory Consistency and Cache Coherence

被修饰的汇编指令成为“原子的” 本身是原子指令,比如“XCHG”和“XADD”汇编指令 本身不是原子指令,但是被LOCK指令前缀修饰后成为原子指令,比如LOCK CMPXCHG 被...

Updated 10 months ago by Colin

TSO(Total Store Ordering)内存模型

计算机体系结构 Memory Consistency and Cache Coherence

TSO(Total Store Ordering)是一个被广泛使用的内存模型 并在x86架构中使用,RISC-V也提供了TSO扩展,即RVTSO,人们普遍认为x86内存模型等同于TSO,然...

Updated 10 months ago by Colin

理解《思考,快与慢》

基本问题

卡尼曼如此形容两大思考模式 系统一:自动化的运作,非常快、不费力气,即使要费力,也很少,它不受自主控制。以下为系统一的工作内容,大致依复杂度排序如下: 判断一个物体较另一个物体距...

Updated 10 months ago by Colin

AI加速芯片上的2D单元

AI加速芯片

卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...

Updated 10 months ago by Colin

为什么Pytorch开始制约AI了

AI加速芯片 软件框架

这个想法比较超前了,但是已经有苗头了 pytorch已经显得臃肿,不适合大模型的特定需求 需求变化了,已经不是CNN的时代了,虽然在拼命搞静态图和并行库 一个开源框架统一市场后一段...

Updated 10 months ago by Colin