Skip to main content

Recently Updated Pages

LLM时代AI加速芯片面临的挑战

AI加速芯片

算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等...

Updated 2 months ago by Colin

Dynamic Graph Multi Processor 架构

AI加速芯片

背景 Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。 「干净数据+大模型」和「脏数据+大模型」的效果,不会有太大差异。 ...

Updated 2 months ago by Colin

光学镜头和航空发动机的区别

基本问题

相同点 都是处理光流和气流,对其路径进行改变和控制 都有多层多级结构 为什么?

Updated 2 months ago by Colin

Adam AdamW

算法&模型

Adam核心计算流程 ​初始化参数 初始化一阶矩(动量)向量 m0​=0 和二阶矩(梯度平方的指数平均)向量 v0​=0。 设定超参数:学习率 η(默认0.001)、动量衰减因...

Updated 2 months ago by Colin

MLA by Deekseek

算法&模型 Transformer

MLA 的核心思想是通过低秩联合压缩技术,减少 K 和 V 矩阵的存储开销 相对于传统的MHA,主要引入了𝑊𝐷𝐾𝑉把ht压缩了,并在推理时候缓存压缩后的数据,而不是kv,kv是使用WU...

Updated 2 months ago by Colin

FlashAttention

算法&模型 Transformer

Attention计算 对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x...

Updated 2 months ago by Colin

NSA 稀疏注意力机制 by deepseek

算法&模型 Transformer

NSA致力于实现硬件对齐的推理加速,通过特定的算法设计减少内存访问和硬件调度瓶颈,NSA 速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍 ...

Updated 2 months ago by Colin

NoC

计算机体系结构

OpenSMART https://github.com/hyoukjun/OpenSMART/tree/master connect https://users.ece.cmu.edu/...

Updated 2 months ago by Colin

RAM

计算机体系结构

DRAM 电容 带宽不是很高 需要刷新,会有颠簸 SRAM 面积和功耗不能和工艺平行 类型 Cpu register Flip Flops 每个bit都有一读一写 ...

Updated 2 months ago by Colin

Cache写机制 Write-through与Write-back

计算机体系结构

Cache写机制分为write through和write back两种。Write-through: Write is done synchronously both to the cache...

Updated 2 months ago by Colin

AI计算需求的抽象

AI加速芯片

算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM  =>  Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : R...

Updated 2 months ago by Colin

哲学观点

基本问题

哲学的本质本身就是一个哲学问题 胡适的描述是:凡研究人生切要的问题,从根本上着想,要寻一个根本的解决:这种学问叫做哲学 对哲学的主题亦存在许多看法。一些人认为哲学是对问题本身过程的观察。[1...

Updated 2 months ago by Colin

einsum

计算机体系结构

两个基本概念 自由索引(Free indices)和求和索引(Summation indices): 自由索引,出现在箭头右边的索引,比如上面的例子就是 i 和 j; 求和索引,只出现...

Updated 3 months ago by Colin

RWKV

算法&模型

RWKV-V7 采用了动态状态演化(Dynamic State Evolution),超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV...

Updated 3 months ago by Colin

建模的方法

AI加速芯片 仿真建模

使用python语法进行module的定义 python语法用来描述module之间的关系和 定义latch的存储器 定义module的算法和输入输出 配置一些固定的规格参数 ...

Updated 3 months ago by Colin

抽象

基本问题

Updated 3 months ago by Colin

分层LLM推理与Scaling思维模板

算法&模型 TTS:Test-Time Scaling

通过复杂的人工设计的算法影响模型的功能和性能 人类总是能在更高的维度来指导模型 模型的自我学习能力还是不理想 最后的瓶颈会是人类设计算法的复杂性,需要另外一种更通用、简单的方法来替代T...

Updated 3 months ago by Colin

世上没有永远持续的增长,只有S型曲线式增长

基本问题

世界上不存在无限增长的事情(说你呢,Scaling Law),这基本是个定则,即使把目光拉长放到宇宙级视野里,宇宙中最大速度也不可能超过光速,宇宙它再大也总有个边界,是吧?所以,我觉得很可能...

Updated 3 months ago by Colin

具有意识的prompt

算法&模型

当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处...

Updated 3 months ago by Colin

LLM大语言模型的训练

算法&模型 Transformer

预训练 继续预训练 微调 全面微调更容易出现两个问题:模型崩溃和灾难性遗忘 PEFT技术本质上,是作为微调的自然正则化器 数据集的质量和筛选,对微调的成功起着重要作用:一个大趋势是...

Updated 3 months ago by Colin