Recently Updated Pages

Transformer黑盒

算法&模型 Transformer

问题 Transformer是怎么组织和表达自然语言的？可能的方向通过不断的训练、运行来对模型的权重进行解析--逆训练生成出一系列的最核心的，最有效的样本的数据集，用于蒸馏其他的模...

Updated 3 months ago by Colin

幻觉

算法&模型 Transformer

模型生成不真实或非事实陈述的现象即模型中的主导知识可以在文本生成过程中，掩盖那些不太突出的知识，从而导致模型编造不准确的细节由于权重表达的信息有限，只能对大量的知识进行归类抽象表...

Updated 3 months ago by Colin

Transformer NLP到底有没有智能？

算法&模型 Transformer

智能的定义和人脑的区别和差异 “性能差异” 场景：通过对一段句子进行划分、分句、解析起表达的意思我的祖国是中国：我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我的祖国/是中...

Updated 3 months ago by Colin

Tokenization

算法&模型 Transformer

注：作为术语的“tokenization”在中文中尚无共识的概念对应，本文档采用英文表达以利说明。 Qwen-7B采用UTF-8字节级别的BPE tokenization方式，并依赖tikt...

Updated 3 months ago by Colin

NSA 稀疏注意力机制 by deepseek

算法&模型 Transformer

NSA致力于实现硬件对齐的推理加速，通过特定的算法设计减少内存访问和硬件调度瓶颈，NSA 速度在64k inference相较 Flash Attention 前向加速9倍，反向加速6倍 NS...

Updated 3 months ago by Colin

MLA by Deekseek

算法&模型 Transformer

MLA 的核心思想是通过低秩联合压缩技术，减少 K 和 V 矩阵的存储开销相对于传统的 MHA，主要引入了 W^{DKV} 把 h_{t} 压缩了，并在推理时候缓存压缩后的数据，而不是 kv...

Updated 3 months ago by Colin

LLM推理行为

算法&模型 Transformer

推理的定义能利用已知的知识产生新的知识能清晰得判断一个知识的边界、合理性，保持自洽推理应用技巧在input里面增加思维链提示，推理的示例就可以触发模型进行推理，输出详细的解题步骤 ...

Updated 3 months ago by Colin

LLM大语言模型的训练

算法&模型 Transformer

预训练 1. 继续预训练微调全面微调更容易出现两个问题：模型崩溃和灾难性遗忘 PEFT技术本质上，是作为微调的自然正则化器数据集的质量和筛选，对微调的成功起着重要作用：一个大趋势是质量比...

Updated 3 months ago by Colin

LLM信息空间的映射

算法&模型 Transformer

乘法两个32bit的浮点数乘法，相当于32位的bit向量做空间映射每个bit代表了特殊的含义，指数、尾数以及对应的档位乘法不能充分利用32位的所有表达空间，精度越低的数据信息利用率越高 ...

Updated 3 months ago by Colin

FlashAttention

算法&模型 Transformer

Attention计算对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x_max)...

Updated 3 months ago by Colin

ChatGLM3典型计算图

算法&模型 Transformer

## data flow query -> "你好" | to...

Updated 3 months ago by Colin

分层LLM推理与Scaling思维模板

算法&模型 TTS：Test-Time Scaling

通过复杂的人工设计的算法影响模型的功能和性能人类总是能在更高的维度来指导模型模型的自我学习能力还是不理想最后的瓶颈会是人类设计算法的复杂性，需要另外一种更通用、简单的方法来替代Trans...

Updated 3 months ago by Colin

CoT & 强化学习

算法&模型 TTS：Test-Time Scaling

--用推理的“临时态”实现短暂的意识背景和方法众所周知，o1在推理阶段采用了一种思维链（Chain of Thought）的方法，将推理过程分解为多个离散的步骤。o1能够规划其推理步骤，评估...

Updated 3 months ago by Colin

计算模型

算法&模型 AGI基础方法

背景计算机已经发展了很多年，很多层的划分已经非常的明确高层级的计算范式随着AI的发展，特别是LLM的发展，已经越发的清晰传统计算机软硬件堆栈->神经网络算子->神经网络计算图->Pyt...

Updated 3 months ago by Colin

自洽后就有意识了吗？

算法&模型 AGI基础方法

自洽能力对于人工智能的重要性当前AI还不能轻易的实现自洽能力，甚至在在KV cache内的自洽性还存在挑战，权重范围内只能根据概率来输出意识会去维护一个最本质的目的，不断检验当前的成果，...

Updated 3 months ago by Colin

短期记忆和长期记忆

算法&模型 AGI基础方法

一种误解短期记忆是临时记忆，只是记忆的一部分关键信息短期记忆大脑的意识存在于短期记忆是一个不断变化的，不断被更改的状态存储器存储的是对当前状态的高度浓缩的，高度抽象的表示可能...

Updated 3 months ago by Colin

动态算法

算法&模型 AGI基础方法

Transformer类算法，依赖大维度的信息变换，相关性爆炸也就是尺寸很大的矩阵乘法，虽然很适合现代GPU的加速大的GEMM提供了非常大的状态空间，目标是包含所有的维度使用固定路径的...

Updated 3 months ago by Colin

AI突破的可能

算法&模型 AGI基础方法

新的信号处理方法非常高的等价算力高效率单bit 非数学直接等价（乘加）的计算：查找表处理好，抽象好，不可避免的动态特性训练受梯度下降算法严格绑定，受数学约束，不太容易改变，但是推理...

Updated 3 months ago by Colin

模型能力的衡量标准--基础性能特征

算法&模型

动态性 Transformer的“动态性决策”体现 Attention 本质上是利用dot计算，进行动态对信息的选取和重组增加模型表达的非线性能力，利用有限的参数量表示（覆盖）更大的向量空...

Updated 3 months ago by Colin

无监督训练

算法&模型

统计模型 rank_tree表达了一短句子的逻辑分割，一段句子的分割，语意的组合，是抽象的一种，两个不一样的表示表达的是同一个语义怎么办？腿短的是狗，腿长的也是狗，有些逻辑不是组合能表达的 ...

Updated 3 months ago by Colin