Skip to main content
Advanced Search
Search Terms
Content Type

Exact Matches
Tag Searches
Date Options
Updated after
Updated before
Created after
Created before

Search Results

85 total results found

通用的抽象

基本问题

背景、需求自动根据输入信息进行结构化建模让AI进行一种更通用,哲学上完备的方法,类似于,面向对象对编程技术的抽象自然语言等抽象概念的结构化通用抽象引擎, 通用NP问题解决通用基础计算单元,算法基础范式要求怎么表达“抽象的程度” ,“抽象的能力”怎么表达“对象”的行为(“方法”),对象除了属性还有方法标准的抽象定义方法和通用的逻辑运行和表达方法对象所有都抽象为对象,对象的定义本身包含所有的约束,只要能生成出合格的对象就是符合约束对象,定义一个符号继承,分层级定义对象,定义公共属性,表达隐含的“是”拓扑关系及层级结构组...

LLM时代AI加速芯片面临的挑战

AI加速芯片

算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等: Deepseek的Flash MLA 混合精度及量化 低精度支持及累加精度保证 多卡互联技术,包括快速的分布式all to all的性能,通信异步化,不占用计算核,最大化带宽利用率 更低的latency,更高的throughput 异步通信,动态执行 复杂的存储地址控制,复杂的MMU系统 Ato...

建模的方法

AI加速芯片 仿真建模

使用python语法进行module的定义 python语法用来描述module之间的关系和 定义latch的存储器 定义module的算法和输入输出 配置一些固定的规格参数 针对throughput和latency的建模 传递的标准信息都是 inst 定义一个通用的TL(throughput latency)的Module 支持配置 thread 通道数量 处理inst的latency 处理inst的throughput:输入的通道的数量,输出的通道数量 内部stand-by...

AI计算需求的抽象

AI加速芯片

算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM  =>  Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : Reduce 、G/S 随机数生成 是不是可以把所有的计算都抽象成查找表的方式 操作的方式由操作码+密码数来指定,实际上是定义一个查找表 操作码可以是指令的imm,密码数可以是约定的,也可能是提前载入的 乘法等价? 信息加工的角度 一堆向量和另外一堆向量交叉计算相关度 存内计...

RWKV

算法&模型

RWKV-V7 采用了动态状态演化(Dynamic State Evolution),超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV-V7 拥有 NC1 的表达能力,使其可以解决许多 attention 无法解决的问题。

NSA 稀疏注意力机制 by deepseek

算法&模型 Transformer

NSA致力于实现硬件对齐的推理加速,通过特定的算法设计减少内存访问和硬件调度瓶颈,NSA 速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍 NSA的总体框架是通过更紧凑和信息密集的表示来替换原始的键值对 NSA有三种映射策略,分别是压缩(cmp)、选择(slc)和滑动窗口(win)。通过将不同策略得到的键值对进行组合 理解 引入动态选择和压缩历史的KV,减少计算量,符合实际的自然语言规律,但是 不一定完全匹配语言的表达逻辑 没有改变tran...

FlashAttention

算法&模型 Transformer

Attention计算 对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x_max) x_exp_sum = x_exp.sum() return x_exp / x_exp_sum 记录每个sub block的  softmax结果 + x_max(标量) + x_exp_sum(标量) 更新全局的 max(标量) 和 exp_sum(标量) 通过一次遍历eleme...

MLA by Deekseek

算法&模型 Transformer

MLA 的核心思想是通过低秩联合压缩技术,减少 K 和 V 矩阵的存储开销 相对于传统的MHA,主要引入了𝑊𝐷𝐾𝑉把ht压缩了,并在推理时候缓存压缩后的数据,而不是kv,kv是使用WUV/WUK和CtKV恢复 可以被训练的参数有 WDKV WUK WUV WKR

Adam AdamW

算法&模型

Adam核心计算流程 ​初始化参数 初始化一阶矩(动量)向量 m0​=0 和二阶矩(梯度平方的指数平均)向量 v0​=0。 设定超参数:学习率 η(默认0.001)、动量衰减因子 β1​(默认0.9)、二阶矩衰减因子 β2​(默认0.999)、数值稳定常数 ϵ(默认1e-8) ​计算当前梯度在时间步 t,计算损失函数对参数 θt​ 的梯度 gt​ ​更新一阶矩(动量项)​对梯度进行指数加权移动平均,模拟动量效果:mt​=β1​⋅mt−1​+(1−β1​)⋅gt​...

光学镜头和航空发动机的区别

基本问题

相同点 都是处理光流和气流,对其路径进行改变和控制 都有多层多级结构 为什么?

GMP

AI加速芯片

目标 软硬件结合 大量依靠软件优化,发挥最大的物理效率,同工艺下架构效率达2倍 算法和硬件协同优化,同模型精度条件下效率达4倍 DRAM或者多机的不确定数据延迟直接整合到算法处理,硬件不做竞争 硬件采用固定的LUT计算(可能不能等价到矩阵乘法,甚至是乘法本身) 全模型网络级别优化,利用编译器对整个模型进行搜索优化,生成静态计算图 架构考虑 动态性的表达 硬件竞争的管理 灵活性,扩展性,从edga到集群 自举,所有单元支持自配置,自启动 线程内的依赖...

自然语言的内在逻辑

算法&模型

逻辑 推断: A 是 B 与或非 逻辑规律: 传递性 类比:判断相似性,通过类比来模仿很容易,但是分析内在原因,并描述出来,形成理论很难 晶体管的饱和 类比 边际效应 晶体管的放大区 类比 线性关系 逻辑规律 a与b 就是c ,这 就是一个推断的模版,推断的规律。   逻辑 的模版,   掌握这种规律,就能应用于其他领域, 这就需要高层级的抽象能力才能学到的规律 捕捉高层次的语义概念,在LLM中有效地隔离出有意义的潜在特征。 自然语言模型欠缺逻辑能力 只能对样本进行回归...

二值 二进制 Binary 神经网络算法

AI加速芯片

背景 FPGA的基本单元是LUT(查找表),如果把LUT看成一种逻辑运算单元 查找表的真值表可以表示静态权重 查找表的部份输入表示动态权重 FPGA的可重构特性,相对于AI处理器 可以把部份或者全部的动态权重(操作数)固化成静态的真值表,大大提高PPA 不同的模型和参数,可以通过重新配置FPGA的逻辑单元 只适合推理,理论上训练的权重不能静态化,PPA优势不大 把FPGA的LUT作为AI芯片的核心算力单元 有利于硬件的标准化 扩展到二进制神经网络,所有...

幻觉

算法&模型 Transformer

模型生成不真实或非事实陈述的现象 即模型中的主导知识可以在文本生成过程中,掩盖那些不太突出的知识,从而导致模型编造不准确的细节 由于权重表达的信息有限,只能对大量的知识进行归类抽象表达,会产生“想当然”的问题 随着模型记忆大量信息并捕捉关联关系,它们会在泛化过程中适应新的分布。然而,在这一过程中,不占主导地位的知识可能会因过度平滑(smoothing)或信息压缩(compression)而被更常见的模式所掩盖。知识掩盖并不仅仅是数据不均衡的结果,而是知识表征之间竞争的直接产物。