Skip to main content
Advanced Search
Search Terms
Content Type

Exact Matches
Tag Searches
Date Options
Updated after
Updated before
Created after
Created before

Search Results

159 total results found

Memory Consistency and Cache Coherence 定义

计算机体系结构 Memory Consistency and Cache Coherence

1. Memory Consistency(内存一致性) 定义:内存一致性是指多核或多处理器系统中,多个处理器对共享内存的访问顺序是否一致,以及这些访问操作是否满足特定的规则或模型。 关注点:内存操作的全局可见顺序,确保所有处理器对内存的读写操作按照一致的顺序进行。 问题背景:在多核系统中,不同处理器可能同时访问共享内存,如果没有明确的内存一致性模型,可能会导致程序行为不可预测。 内存一致性模型: 顺序一致性(Sequential Consistency):所有处理器的内存操作按照一个全局顺序执行...

TSO(Total Store Ordering)内存模型

计算机体系结构 Memory Consistency and Cache Coherence

TSO(Total Store Ordering)是一个被广泛使用的内存模型 并在x86架构中使用,RISC-V也提供了TSO扩展,即RVTSO,人们普遍认为x86内存模型等同于TSO,然而Intel和AMD从来没有保证这一点 x86选择放弃SC(顺序一致性sequential consistency),以更好地支持基于FIFO的write buffer,用于加速性能 TSO和SC最关键的区别就是store可能被放入write buffer中且允许load的bypass 对于单核视角来说,和SC没有区别,执行顺...

x86的多核宽松内存一致性模型

计算机体系结构 Memory Consistency and Cache Coherence

被修饰的汇编指令成为“原子的” 本身是原子指令,比如“XCHG”和“XADD”汇编指令 本身不是原子指令,但是被LOCK指令前缀修饰后成为原子指令,比如LOCK CMPXCHG 被修饰的汇编指令A在执行期间,会在内存总线上声言一个#LOCK信号,该信号导致内存被锁住,此时内存不能再被其他汇编指令存取,直到A执行完成。经过分析可知,A的执行效果与“暂停执行其他所有汇编指令直到A执行完成等价,因此此时A是原子的 fence sfence: 在sfence指令前的写操作当必须在sfence指令后的写操作前完...

Transformer黑盒

算法&模型 Transformer

问题 Transformer是怎么组织和表达自然语言的? 可能的方向 通过不断的训练、运行来对模型的权重进行解析--逆训练 生成出一系列的最核心的,最有效的样本的数据集,用于蒸馏其他的模型 从单点,添加探针的方式来推断输出的逻辑 特定样本下各个权重的梯度(对结果的影响力)组成一张针对一个样本的逻辑地图 通过统计大量样本在单点的情况分析出模型的抽象图 从最后的输出逻辑往前面推理的方式来推断模型的输出逻辑 找到整个模型的最边缘的知识点,最终的知识点,不会被其他知识使用的知识点,唯一的 判断激活这个知...

第一性原理及公理化思维

基本问题

公理化思维,以第一性原理为根基,运用逻辑去找到超出我们认知极限问题的答案,进而建立起他理性思维体系。 古希腊哲学中的“原型”以中间的推理逻辑为实体,东方文明中的“原型”以结论为实体,这种微妙而重要的差异造成了东西方文化的发展路径。东方文明在重实践的思维方式指导下,非常快速地建立了理性思维,这是孔子和一众儒家圣贤的贡献。儒家文化融入社会的方方面面,建立了广泛的理性文明,历经两三千年而不倒,但是也知识停留在理性思维的层面,没有办法在进一步。因为没有哲科思维中的公理化方法,我们不可能从农业社会逻辑推导出实际生活中并...

分层LLM推理与Scaling思维模板

算法&模型 TTS:Test-Time Scaling

通过复杂的人工设计的算法影响模型的功能和性能 人类总是能在更高的维度来指导模型 模型的自我学习能力还是不理想 最后的瓶颈会是人类设计算法的复杂性,需要另外一种更通用、简单的方法来替代Transformer ReasonFlux框架 结构化通用思维模板库:包含约500个高层次思维模板,可泛化到类似或相关的推理问题。 分层强化学习:在思维模板序列上执行强化学习,不再在长思维链(CoT)数据上进行优化,使基础LLM能够规划最优模板轨迹,逐步解决复杂问题。 全新的推理Scaling系统:在推理过程中自适应Scalin...

损有余而补不足

基本问题

没有持续的增长,只有S型曲线式增长 世界上不存在无限增长的事情(说你呢,Scaling Law),这基本是个定则, 即使把目光拉长放到宇宙级视野里,宇宙中最大速度也不可能超过光速,宇宙它再大也总有个边界,是吧? 所以,我觉得很可能各种看着貌似可以无限增长, 但那是因为我们看它的时间窗口还是太短, S型增长曲线(Sigmoid函数刻画的非线性曲线)可能才是更准确对增长准确描述的曲线, 要我猜AI智能增长趋势大概也是如此。 按照道家的说法就是 损有余而补不足 ,道常无为而无不为

梯度下降

算法&模型

梯度下降的每个step,都需要把所有的loss“汇总” 包含所有batch,所有的loss function,以及在多个step之间,多个epoch之间 等价于对数据集的统计、回归、拟合,最终效果只能达到统计上的意义 训练效率低,有用信息密度低、容易被坏数据平均 相对于人脑 缺乏思维的贪心原则 缺少“自恰”的自主意识的判断 一个样本的梯度下降,相对于整个模型,所表达的是对参数分布的一个小的倾向性调整 不能确保模型肯定掌握、认同这个样本 有矛盾的样本会按照概率进行中和 贪心法、高温度、反复强化自...

通用的抽象

基本问题

背景、需求 自动根据输入信息进行结构化建模 让AI进行一种更通用,哲学上完备的方法,类似于,面向对象对编程技术的抽象 自然语言等抽象概念的结构化 通用抽象引擎, 通用NP问题解决 通用基础计算单元,算法基础范式 要求 怎么表达“抽象的程度” ,“抽象的能力” 怎么表达“对象”的行为(“方法”),对象除了属性还有方法 标准的抽象定义方法和通用的逻辑运行和表达方法 对象 所有都抽象为对象,对象的定义本身包含所有的约束,只要能生成出合格的对象就是符合约束 ****对象,****定义一个符号 继承,分层...

LLM时代AI加速芯片面临的挑战

AI加速芯片

算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等: Deepseek的Flash MLA 混合精度及量化 低精度支持及累加精度保证 多卡互联技术,包括快速的分布式all to all的性能,通信异步化,不占用计算核,最大化带宽利用率 更低的latency,更高的throughput 异步通信,动态执行 复杂的存储地址控制,复杂的MMU系统 Atomic的支持,用于复杂算法的redu...

建模的方法

AI加速芯片 仿真建模

使用python语法进行module的定义 python语法用来描述module之间的关系和 定义latch的存储器 定义module的算法和输入输出 配置一些固定的规格参数 针对throughput和latency的建模 传递的标准信息都是 inst 定义一个通用的TL(throughput latency)的Module 支持配置 thread 通道数量 处理inst的latency 处理inst的throughput:输入的通道的数量,输出的通道数量 内部stand-by的容量 TL可以被递归的进...

AI计算需求的抽象

AI加速芯片

算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM => Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : Reduce 、G/S 随机数生成 是不是可以把所有的计算都抽象成查找表的方式 操作的方式由操作码+密码数来指定,实际上是定义一个查找表 操作码可以是指令的imm,密码数可以是约定的,也可能是提前载入的 乘法等价? 信息加工的角度 一堆向量和另外一堆向量交叉计算相关度 存内计算只是保持一支数据更靠近计算单元 一堆向量的变...

RWKV

算法&模型

RWKV-V7 采用了动态状态演化(Dynamic State Evolution),超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV-V7 拥有 NC1 的表达能力,使其可以解决许多 attention 无法解决的问题。

NSA 稀疏注意力机制 by deepseek

算法&模型 Transformer

NSA致力于实现硬件对齐的推理加速,通过特定的算法设计减少内存访问和硬件调度瓶颈,NSA 速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍 NSA的总体框架是通过更紧凑和信息密集的表示来替换原始的键值对 NSA有三种映射策略,分别是压缩(cmp)、选择(slc)和滑动窗口(win)。通过将不同策略得到的键值对进行组合 理解 引入动态选择和压缩历史的KV,减少计算量,符合实际的自然语言规律,但是 不一定完全匹配语言的表达逻辑 没有改变transformer的固有...

FlashAttention

算法&模型 Transformer

Attention计算 对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x_max) x_exp_sum = x_exp.sum() return x_exp / x_exp_sum 记录每个sub block的 softmax结果 + x_max(标量) + x_exp_sum(标量) 更新全局的 max(标量) 和 exp_sum(标量) 通过一次遍历elementwise...

MLA by Deekseek

算法&模型 Transformer

MLA 的核心思想是通过低秩联合压缩技术,减少 K 和 V 矩阵的存储开销 相对于传统的 MHA,主要引入了 W^{DKV} 把 h_{t} 压缩了,并在推理时候缓存压缩后的数据,而不是 kv,kv 是使用 W^{UV}/W^{UK} 和 C_{t}^{KV} 恢复 可以被训练的参数有 W^{DKV} W^{UK} W^{UV} W^{KR} [![image.png](MLA by Deekseek/InKimage.png)](MLA by Deekseek/InKimage.png) [![image.p...

Adam AdamW

算法&模型

Adam核心计算流程 ​初始化参数 初始化一阶矩(动量)向量 m0​=0 和二阶矩(梯度平方的指数平均)向量 v0​=0。 设定超参数:学习率 η(默认0.001)、动量衰减因子 β1​(默认0.9)、二阶矩衰减因子 β2​(默认0.999)、数值稳定常数 ϵ(默认1e-8) ​计算当前梯度 在时间步 t,计算损失函数对参数 θ_{t}​ 的梯度 g_{t}​ ​更新一阶矩(动量项)​ 对梯度进行指数加权移动平均,模拟动量效果:m_{t}​=β1​⋅m_{t−1}​+(1−β1​)⋅g_{t}​ ...

光学镜头和涡轮喷气发动机的区别

基本问题

结构上非常的类似:圆筒状,中间有粗有细,两头是空的 形式上:中间存在多级,都是介质从一头进,另一头出,实现一些变化 什么时候AI能自动总结出这个层面的规律 都是处理光流和气流,对其路径进行改变和控制 都有多层多级结构 为什么? 专业领域系统发展到成熟,追求高效率,都会趋近于一个复杂的系统。 涡扇发动机核心机,为了追求效率,会采取多级压气机 汽油活塞发动机,为了防止爆震,添加辛烷,改变活塞形状,控制点火过程 AI模型为了最大化计算效率,采用MoE,TopK等行为/方法 卷积神经网络不采用一个非常大的卷积核...