算法&模型

具有意识的prompt

当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处...

query@key

Transformer

Transformer解析

精细的抽象，记忆空间特别大大数据，大算力，大模型 scaling特性，可以训练很大的模型，用很多数据获得更多智能 “硬件彩票”，高强度对着GPU设计，能打满GPU利用...

KV Cache

https://zhuanlan.zhihu.com/p/662498827

ChatGLM3典型计算图

## data flow ``` query -> "你好" | ...

Tokenization

注：作为术语的“tokenization”在中文中尚无共识的概念对应，本文档采用英文表达以利说明。 Qwen-7B采用UTF-8字节级别的BPE tokenization方式，并依赖tikt...

Transformer in CV

MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ ...

新方法

Llama 3 128K token 的分词器，这种分词器在编码语言时更加高效，这使得模型的性能得到了显著提升分组查询注意力（GQA）技术在训练过程中，我们让模型处理最多 8,19...

Attention是不是必须的

RNN容易梯度消失：梯度消失的本质问题是，网络太深了，这里的深代表信息表达的层级而不是拓扑，resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点：Transform...

神经网络的逻辑

量化量化不是没有代价。Llama3模型的量化效果比Llama2模型要差，量化过程中的质量损失更大。直觉是，一个训练不足的模型受到量化的影响较小，因为其训练过程并没有充分利用每一个权重。关...

改进大规模训练稀疏自编码器的方法

Ref ：https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式，且每次输入几乎总会引发很密集的激活...

Transformer NLP到底有没有智能？

智能的定义和人脑的区别和差异 “性能差异” 场景：通过对一段句子进行划分、分句、解析起表达的意思我的祖国是中国：我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我...

LLM大语言模型的训练

预训练 1. 继续预训练微调全面微调更容易出现两个问题：模型崩溃和灾难性遗忘 PEFT技术本质上，是作为微调的自然正则化器数据集的质量和筛选，对微调的成功起着重要作用：一...

Transformer黑盒

问题 Transformer是怎么组织和表达自然语言的？可能的方向通过不断的训练、运行来对模型的权重进行解析--逆训练生成出一系列的最核心的，最有效的样本的数据集，用于蒸馏其他的模...

NSA 稀疏注意力机制 by deepseek

NSA致力于实现硬件对齐的推理加速，通过特定的算法设计减少内存访问和硬件调度瓶颈，NSA 速度在64k inference相较 Flash Attention 前向加速9倍，反向加速6倍 ...

FlashAttention

Attention计算对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x...

MLA by Deekseek

MLA 的核心思想是通过低秩联合压缩技术，减少 K 和 V 矩阵的存储开销相对于传统的MHA，主要引入了𝑊𝐷𝐾𝑉把ht压缩了，并在推理时候缓存压缩后的数据，而不是kv，kv是使用WU...

幻觉

模型生成不真实或非事实陈述的现象即模型中的主导知识可以在文本生成过程中，掩盖那些不太突出的知识，从而导致模型编造不准确的细节由于权重表达的信息有限，只能对大量的知识进行归类抽象表达，...

Mamba

SSM Mamba的定位 SSM/S4的中间变量为定长，所以必须使用最大的容量来表达整个句子的信息，要不然句子长了就存储不下，这又导致训练难 SSM/S4缺乏动态性（att...

无监督训练

统计模型 rank_tree表达了一短句子的逻辑分割，一段句子的分割，语意的组合，是抽象的一种，两个不一样的表示表达的是同一个语义怎么办？腿短的是狗，腿长的也是狗，有些逻辑不是组合能表达...

TTT - Learning to (Learn at Test Time)

研究人员设计了一类新的序列建模层，其中隐藏状态是模型，更新规则是自监督学习的一个步骤。由于更新测试序列上隐藏状态的过程，相当于在测试时训练模型，因此此类新层称为测试时训练（TTT）层。 ...

AI算法的里面的“乘法”

原理特征向量表达了一堆的对象的集合，平铺得组合在一起，没有层级结构向量内的每个对象都被量化后并且归一化多个乘法再累加组成了线性变换 Y = A X_1 + ...

Kimi之长文本

营销月之暗面的目标是C端，为了让C端用户能够理解“长文本”这个技术名词，杨植麟用了更形象的比喻“支持更长的上下文”意味着大模型拥有更大的“内存”。这个世界已经被计算机、手机教育过了，每个普通...

模型能力的衡量标准--基础性能特征

动态性 Transformer的“动态性决策”体现 Attention 本质上是利用dot计算，进行动态对信息的选取和重组增加模型表达的非线性能力，利用有限的参数量表示（覆盖）更...

2D Transformer

2D Transformer是一种基于Transformer架构的神经网络，专门用于处理二维数据，如图像。Transformer最初是在自然语言处理（NLP）领域提出的，用于处理序列数据。然而，...

生物脑人脑

生物脑（人脑）的优势

抽象抽象出高效的，合理的，可复用的底层抽象抽象出高效的、非常抽象的高层级概念，并应用于看起来毫不相关领域记忆：记忆及快速的索引类比：强大的类比功能神经训练...

意识

表现为能一直统一个完整的，自洽的行为表现保持行为、价值观的一贯性能体现出个人的风格特色有一些内在的价值观设定比较难以受外界的输入而改变具有不完全受现有观念影响...

人脑的工作原理

特点人脑具有反馈回路，反馈回路形成正反馈，不断训练神经元，加强神经元视觉神经能识别图像，也能通过提示想象出图像语言作为抽象能力很强的表示工具，被充分用于协助思考，但不是智力...

TTS：Test-Time Scaling

是一种通过在推理阶段增加计算量来提升模型性能的方法

CoT & 强化学习

--用推理的“临时态”实现短暂的意识背景和方法众所周知，o1在推理阶段采用了一种思维链（Chain of Thought）的方法，将推理过程分解为多个离散的步骤。o1能够规划其推理步骤，...

分层LLM推理与Scaling思维模板

通过复杂的人工设计的算法影响模型的功能和性能人类总是能在更高的维度来指导模型模型的自我学习能力还是不理想最后的瓶颈会是人类设计算法的复杂性，需要另外一种更通用、简单的方法来替代T...

梯度下降

梯度下降的每个step，都需要把所有的loss“汇总” 包含所有batch，所有的loss function，以及在多个step之间，多个epoch之间等价于对数据集的统计、回归、...

RWKV

RWKV-V7 采用了动态状态演化（Dynamic State Evolution），超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV...

Adam AdamW

Adam核心计算流程初始化参数初始化一阶矩（动量）向量 m0=0 和二阶矩（梯度平方的指数平均）向量 v0=0。设定超参数：学习率 η（默认0.001）、动量衰减因...

自然语言的内在逻辑

逻辑推断： A 是 B 与或非逻辑规律：传递性类比：判断相似性，通过类比来模仿很容易，但是分析内在原因，并描述出来，形成理论很难晶体管的饱和类比边际效应晶体管...

记忆

记忆agent

需求个人工具作为第二大脑，思维助手，能帮助思考、总结提升所有人的智力水平带无限的记忆，超越人类通过Agent（人工算法+LLM）的方式实现高层级抽象、意识、复杂...

记忆

为什么需要记忆人脑有非常强大的记忆系统和索引能力，管理着非常庞大的信息，能够准确联想起来非常多的记忆记忆是AGI的一种重要能力因为大脑容量限制，记忆是人类在当前信息爆...

RAG

RAG的过程拆分文本成文本块拆分算法：使用嵌入模型进行向量化对一段文本使用一堆维度很多的向量进行表示存入向量数据库对输入进行向量化使用传统...

GraphRAG

开源项目微软的Graph RAG 蚂蚁开发了首个对外开源的Graph RAG框架，蚂蚁全自主的开源产品：DB-GPT[50] + OpenSPG[42] + TuGraph[46] ...

meaning

meaning dataset

meaning数据集是一个模仿自然语言，以及抽象表达的数据集。 115200 / | ...

附带meaning tree信息的数据集

115200 / | \ 10240 ...