Advanced Search
Search Results
91 total results found
通用的抽象
背景、需求自动根据输入信息进行结构化建模让AI进行一种更通用,哲学上完备的方法,类似于,面向对象对编程技术的抽象自然语言等抽象概念的结构化通用抽象引擎, 通用NP问题解决通用基础计算单元,算法基础范式要求怎么表达“抽象的程度” ,“抽象的能力”怎么表达“对象”的行为(“方法”),对象除了属性还有方法标准的抽象定义方法和通用的逻辑运行和表达方法对象所有都抽象为对象,对象的定义本身包含所有的约束,只要能生成出合格的对象就是符合约束对象,定义一个符号继承,分层级定义对象,定义公共属性,表达隐含的“是”拓扑关系及层级结构组...
LLM时代AI加速芯片面临的挑战
算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等: Deepseek的Flash MLA 混合精度及量化 低精度支持及累加精度保证 多卡互联技术,包括快速的分布式all to all的性能,通信异步化,不占用计算核,最大化带宽利用率 更低的latency,更高的throughput 异步通信,动态执行 复杂的存储地址控制,复杂的MMU系统 Ato...
建模的方法
使用python语法进行module的定义 python语法用来描述module之间的关系和 定义latch的存储器 定义module的算法和输入输出 配置一些固定的规格参数 针对throughput和latency的建模 传递的标准信息都是 inst 定义一个通用的TL(throughput latency)的Module 支持配置 thread 通道数量 处理inst的latency 处理inst的throughput:输入的通道的数量,输出的通道数量 内部stand-by...
AI计算需求的抽象
算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM => Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : Reduce 、G/S 随机数生成 是不是可以把所有的计算都抽象成查找表的方式 操作的方式由操作码+密码数来指定,实际上是定义一个查找表 操作码可以是指令的imm,密码数可以是约定的,也可能是提前载入的 乘法等价? 信息加工的角度 一堆向量和另外一堆向量交叉计算相关度 存内计...
RWKV
RWKV-V7 采用了动态状态演化(Dynamic State Evolution),超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV-V7 拥有 NC1 的表达能力,使其可以解决许多 attention 无法解决的问题。
NSA 稀疏注意力机制 by deepseek
NSA致力于实现硬件对齐的推理加速,通过特定的算法设计减少内存访问和硬件调度瓶颈,NSA 速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍 NSA的总体框架是通过更紧凑和信息密集的表示来替换原始的键值对 NSA有三种映射策略,分别是压缩(cmp)、选择(slc)和滑动窗口(win)。通过将不同策略得到的键值对进行组合 理解 引入动态选择和压缩历史的KV,减少计算量,符合实际的自然语言规律,但是 不一定完全匹配语言的表达逻辑 没有改变tran...
FlashAttention
Attention计算 对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x_max) x_exp_sum = x_exp.sum() return x_exp / x_exp_sum 记录每个sub block的 softmax结果 + x_max(标量) + x_exp_sum(标量) 更新全局的 max(标量) 和 exp_sum(标量) 通过一次遍历eleme...
MLA by Deekseek
MLA 的核心思想是通过低秩联合压缩技术,减少 K 和 V 矩阵的存储开销 相对于传统的MHA,主要引入了𝑊𝐷𝐾𝑉把ht压缩了,并在推理时候缓存压缩后的数据,而不是kv,kv是使用WUV/WUK和CtKV恢复 可以被训练的参数有 WDKV WUK WUV WKR
Adam AdamW
Adam核心计算流程 初始化参数 初始化一阶矩(动量)向量 m0=0 和二阶矩(梯度平方的指数平均)向量 v0=0。 设定超参数:学习率 η(默认0.001)、动量衰减因子 β1(默认0.9)、二阶矩衰减因子 β2(默认0.999)、数值稳定常数 ϵ(默认1e-8) 计算当前梯度在时间步 t,计算损失函数对参数 θt 的梯度 gt 更新一阶矩(动量项)对梯度进行指数加权移动平均,模拟动量效果:mt=β1⋅mt−1+(1−β1)⋅gt...
光学镜头和航空发动机的区别
相同点 都是处理光流和气流,对其路径进行改变和控制 都有多层多级结构 为什么?
GMP
目标 软硬件结合 大量依靠软件优化,发挥最大的物理效率,同工艺下架构效率达2倍 算法和硬件协同优化,同模型精度条件下效率达4倍 DRAM或者多机的不确定数据延迟直接整合到算法处理,硬件不做竞争 硬件采用固定的LUT计算(可能不能等价到矩阵乘法,甚至是乘法本身) 全模型网络级别优化,利用编译器对整个模型进行搜索优化,生成静态计算图 统一的异步通讯管理方案 整个系统有大量的不同的通讯和同步机制 流水线内的credit,L1的数据缓冲 算力核之间的数据交互核同步...
自然语言的内在逻辑
逻辑 推断: A 是 B 与或非 逻辑规律: 传递性 类比:判断相似性,通过类比来模仿很容易,但是分析内在原因,并描述出来,形成理论很难 晶体管的饱和 类比 边际效应 晶体管的放大区 类比 线性关系 逻辑规律 推理任务划分为三种基本类型——溯因(Abduction)、演绎(Deduction)和归纳(Induction),比如 O=P(I) 溯因任务:已知p和对应的o,求可能的i。这类任务考察模型根据结果反推条件、理解代码语义的能力。 演绎任务:已知p和i,求o。这类...
二值 二进制 Binary 神经网络算法
背景FPGA的基本单元是LUT(查找表),如果把LUT看成一种逻辑运算单元查找表的真值表可以表示静态权重查找表的部份输入表示动态权重FPGA的可重构特性,相对于AI处理器可以把部份或者全部的动态权重(操作数)固化成静态的真值表,大大提高PPA不同的模型和参数,可以通过重新配置FPGA的逻辑单元只适合推理,理论上训练的权重不能静态化,PPA优势不大把FPGA的LUT作为AI芯片的核心算力单元有利于硬件的标准化扩展到二进制神经网络,所有的数据都用二进制表示最大的特点是,所有数据表达范围都是完整的,没有任何稀疏,效率最高...
幻觉
模型生成不真实或非事实陈述的现象 即模型中的主导知识可以在文本生成过程中,掩盖那些不太突出的知识,从而导致模型编造不准确的细节 由于权重表达的信息有限,只能对大量的知识进行归类抽象表达,会产生“想当然”的问题 随着模型记忆大量信息并捕捉关联关系,它们会在泛化过程中适应新的分布。然而,在这一过程中,不占主导地位的知识可能会因过度平滑(smoothing)或信息压缩(compression)而被更常见的模式所掩盖。知识掩盖并不仅仅是数据不均衡的结果,而是知识表征之间竞争的直接产物。
工作风格的区别
遇到意见不一致的时候的处理方法 逃避,事前避免,自我保护性避免 利用制定一些规则来使得问题有统一的处理方法,使得大家达成一致 利用名义上的决策者,虽然不是管理者,平时不参与讨论,但是有决策权力 和领导有不同意见的时候 和下属有不同意见的时候 当项目进度和创新有冲突的时候 怎么鞭策下属努力工作 C J H
架构的力量
什么样的架构设计是优秀的 工作效率 高效的开发效率 高效的使用 有效 能很好的满足多方需求 能快速、清晰的进行配置 合理的接口 生命力 支持不断的演进 优秀的架构设计能带来什么 架构等级 高级:设计方案、概念,规则 低级:打补丁式的解决问题,通过增加一个规则、约束、变量的方式来解决问题
人脑的工作原理
人脑具有反馈回路,反馈回路形成正反馈,不断训练神经元,加强神经元 视觉神经能识别图像,也能通过提示想象出图像 语言作为抽象能力很强的表示工具,被充分用于协助思考,但不是智力的全部 @维特根斯坦 所有的神经元时刻待命,适当的输入技能激活输出 不激活的状态需要主动抑制皮层神经的激活 闭眼睛的时候,视觉神经会抑制视觉皮层的激活 动态激活 神经元默认是静息状态,根据输入,逐级激活需要激活的神经元 学习和实践(训练和推理)同步进行,训推同时进行 能量不足的时候,大脑...
AI思维笔记
需求 作为第二大脑,思维助手,能帮助思考、总结 提升所有人的智力水平 带无限记忆的AI 通过Agent(人工算法+LLM)的方式实现高层级抽象、意识、复杂逻辑。Agent的不断运行类似于人脑的逐步思考 信息工具,不仅仅是笔记 实现一些基本的对信息的思维逻辑操作 优秀的人工接口,自然,聪明 资料库 存储所有可能的信息作为数据库 分等级的信息存储和索引 自己写的笔记 阅读过的文章 添加简易评论和信息,用于AI自动检索和处理关系 大脑只能记住比较抽象和高...
数学理解
数学总是在发明各种定义,并且在定义的基础上寻找特定的规律 如果生活的一种现象符合某种数学的定义,那么就可以用已经证明的规律进行计算/推到 从而对抽象的事物用数学工具进行计算 比如说互联网用的加解密算法,就是利用一些独特的数学证明其安全性 数学有很多分支和流派,比如几何学、图论等等 很多不同的分支虽然设计的定义(公理)不一样,但是实际上可能是表达同一种“现象”,只是用不同的方式进行描述 有的时候,使用一个分支的一个规律推到出另外一个分支的规律,就会觉得很“神奇”,很“不可思议” ...
记忆
为什么需要记忆 人脑有非常强大的记忆系统和索引能力,管理着非常庞大的信息,能够准确联想起来非常多的记忆 因为大脑容量限制,记忆是人类在当前信息爆炸的社会的最重要瓶颈,其他的还有类似:推理逻辑能力,运算能力等等 数据库样式的存储记忆不能满足现代需求 没有进行良好的抽象、归纳和整理,只是靠搜索引擎进行匹配检索 不能根据已经有的背景知识进行复杂的逻辑推导 不能利用知识进行慢思维(系统二) 不能用于复杂的深度推理思考活动 当前AI能利用搜索信息进行综合判断,本质上还是在处理临时信息,...