Recently Updated Pages
LLM信息空间的映射
乘法 两个32bit的浮点数乘法,相当于32位的bit向量做空间映射 每个bit代表了特殊的含义,指数、尾数以及对应的档位 乘法不能充分利用32位的所有表达空间,精度越低的数据信息利用率越高 ...
FlashAttention
Attention计算 对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x_max)...
ChatGLM3典型计算图
## data flow query -> "你好" | to...
分层LLM推理与Scaling思维模板
通过复杂的人工设计的算法影响模型的功能和性能 人类总是能在更高的维度来指导模型 模型的自我学习能力还是不理想 最后的瓶颈会是人类设计算法的复杂性,需要另外一种更通用、简单的方法来替代Trans...
CoT & 强化学习
--用推理的“临时态”实现短暂的意识 背景和方法 众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,评估...
计算模型
背景 计算机已经发展了很多年,很多层的划分已经非常的明确 高层级的计算范式随着AI的发展,特别是LLM的发展,已经越发的清晰 传统计算机软硬件堆栈->神经网络算子->神经网络计算图->Pyt...
通用Agent的发展
Agent的需求背景 这些本应被封装为「日常AI工作流」的能力,却仍被塞进一个通用聊天框里手工完成。 这正是留给AI创业者的机会,我们不该让普通人用临时脚本搭建自己的「购房智能代理」,而应当创...
自洽后就有意识了吗?
自洽能力对于人工智能的重要性 当前AI还不能轻易的实现自洽能力,甚至在在KV cache内的自洽性还存在挑战,权重范围内只能根据概率来输出 意识会去维护一个最本质的目的,不断检验当前的成果,...
短期记忆和长期记忆
一种误解 短期记忆是临时记忆,只是记忆的一部分关键信息 短期记忆 大脑的意识存在于短期记忆 是一个不断变化的,不断被更改的状态存储器 存储的是对当前状态的高度浓缩的,高度抽象的表示 可能...
动态算法
Transformer类算法,依赖大维度的信息变换,相关性爆炸 也就是尺寸很大的矩阵乘法,虽然很适合现代GPU的加速 大的GEMM提供了非常大的状态空间,目标是包含所有的维度 使用固定路径的...
Agentic Engineering 智能体编排
只是一个上下文助手-Agent工程化 我们知道当前不管是Code、Cowork 以及 比较火的OpenClaw 等助手类的Agent,不外乎两个特点 所有的自洽和逻辑都只能维持在当前的上下文 ...
AI突破的可能
新的信号处理方法 非常高的等价算力 高效率 单bit 非数学直接等价(乘加)的计算:查找表 处理好,抽象好,不可避免的动态特性 训练受梯度下降算法严格绑定,受数学约束,不太容易改变,但是推理...
Agent Harness 解剖:生产级智能体外壳的 12 个组件
来源:Akshay Pachaar,《The Anatomy of an Agent Harness》(2026-04-06) 推文:https://x.com/akshay_pachaar/...
模型能力的衡量标准--基础性能特征
动态性 Transformer的“动态性决策”体现 Attention 本质上是利用dot计算,进行动态对信息的选取和重组 增加模型表达的非线性能力,利用有限的参数量表示(覆盖)更大的向量空...
无监督训练
统计模型 rank_tree表达了一短句子的逻辑分割,一段句子的分割,语意的组合,是抽象的一种, 两个不一样的表示表达的是同一个语义怎么办? 腿短的是狗,腿长的也是狗,有些逻辑不是组合能表达的 ...
梯度下降
梯度下降的每个step,都需要把所有的loss“汇总” 包含所有batch,所有的loss function,以及在多个step之间,多个epoch之间 等价于对数据集的统计、回归、拟合,...
具有意识的prompt
当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处理?) 4...
攻击 LLM
目的 破坏模型本身的一些设定,窃取一些隐藏在权重里面的信息。 LARGO 潜在空间优化:首先,研究者们并不直接修改问题文本,而是在模型的「大脑」内部,也就是高维的 embedding ...
伊利亚·苏茨克维尔:2025年核心洞见
前OpenAI首席科学家、SSI创始人 为什么AI正在从“Scaling时代”迈入“算法创新”时代? 在旧金山湾区的核心技术圈层,随着计算集群规模的指数级扩张以及模型参数的爆炸式增长,智力过剩的...
VLA & 世界模型
VLA(Vision - Language - Action):视觉 - 语言 - 动作模型 视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头 范式一:端到端...