大脑记忆的核心机制

存储、连接、检索与深度学习的生物学原型

导读

人类大脑实现高效、鲁棒的"模糊记忆",并非靠计算机式的"地址—数据"存取,而是由几个互相支撑的机制共同构成:

分布式表征——记忆以何种形式存在
赫布学习与权重固化——记忆如何形成与巩固
短期记忆到长期记忆的"快照"机制——记忆如何沉淀
扩散激活——记忆如何被检索

这些机制之上,认知科学家构建了若干整体模型(Collins-Loftus 语义网络、ACT-R、海马体索引理论、互补学习系统、预测编码)。而当我们把视角拉远,会发现:现代深度学习的几乎所有核心机制——卷积、梯度下降、批量训练、经验回放——都能在大脑中找到生物学原型。记忆系统与 CNN、Transformer 的类比,不只是修辞,而是算法层面的深刻同构。

本文依次展开。

一、分布式表征(Distributed Representation)

1.1 核心思想

在计算机中,"卡巴斯基"这四个字可能存在某个具体的内存地址(如 0x7FFF)。但在大脑中,不存在一个单独的"卡巴斯基细胞"。

一个概念由成千上万个神经元的组合激活模式共同表示,分布在多个皮层区域。记忆不是"存在哪里",而是"以什么模式被重新激活"。

1.2 多通道编码

以"卡巴斯基"这个概念为例,它同时编码在:

皮层区域	编码内容
听觉皮层	"ka-ba-si-ji" 的发音模式
视觉皮层	绿色盾牌、红色 K 形 Logo
语义皮层	"安全""俄罗斯""防病毒""老牌"等属性
情节记忆区	你第一次听到它的情境
情绪相关区	信任感 / 警觉感 / 中性

这些区域同步激活时,你"想起"了卡巴斯基;激活模式略有差异时,你想起的是它的不同侧面。

1.3 为什么这是模糊检索的物理基础

1. 容错性(Graceful Degradation) — 删除一部分神经元,记忆不会突然消失,只是变得模糊——这与计算机"删掉一个字节就乱码"形成鲜明对比。

2. 部分线索足够还原整体 — "绿色盾牌 + 俄罗斯 + 安全"被激活,即使"发音"通道缺失,整个概念仍能被拼凑出来。

3. 概念自动具备相似度结构 — 相似概念的激活模式自然重叠(猫和狗共享很多神经元),形成天然的语义空间——这正是现代深度学习中 embedding 向量空间的生物学原型。

1.4 与现代 AI 的对应

神经网络中的 embedding 向量,本质上就是分布式表征的工程化实现。语义相似的词在高维空间中距离近,部分信息缺失仍能近邻检索——这些都是在模仿大脑几亿年演化出来的策略。

二、赫布学习与权重固化(Hebbian Learning & Weighting)

2.1 核心定律

1949 年 Donald Hebb 提出:

Neurons that fire together, wire together. (共同激活的神经元连在一起。)

记忆不是"写入",而是"生长"。

2.2 突触权重的动态调整

当"卡巴斯基"的神经元群与"AGI 还要 10 年"的神经元群因同一情境被同时激活,它们之间的突触权重 $w_{ij}$ 会增强:

$$\Delta w_{ij} = \eta \cdot a_i \cdot a_j$$

其中 $\eta$ 是学习率,$a_i$、$a_j$ 是前后神经元的激活强度。

重复激活持续强化连接,最终通过长时程增强(LTP, Long-Term Potentiation)在分子层面固化——NMDA 受体激活、钙离子内流、AMPA 受体增生,让突触的物理结构真正改变。

2.3 情绪与注意是学习率的乘数

大脑不会平均对待所有信息。神经调质充当了动态 learning rate:

神经调质	触发条件	作用
多巴胺	预测误差、奖赏	放大当前权重更新
去甲肾上腺素	惊讶、警觉	增强注意与编码深度
乙酰胆碱	专注、新奇	提升皮层可塑性
皮质醇	压力、威胁	强化危险相关记忆

这解释了为什么震惊事件终生难忘,而平淡重复的信息反而难记——强烈神经调质信号 × 一次学习 = 永久权重。

2.4 权重的衰减与竞争

连接不是只增不减。未被使用的突触会通过长时程抑制(LTD)逐渐减弱,这是遗忘的物理基础。睡眠期间,大脑还进行突触稳态调整,整体削弱日间增强过度的连接——这是为什么睡眠对记忆巩固至关重要。

三、短期记忆到长期记忆:快照与重构

3.1 长期记忆是短期记忆的"快照"

一个重要的观察是:长期记忆本质上是对某一刻工作记忆状态的快照保存。这个快照不是单纯的"事实",而包括那一刻的完整情境包:

感官内容:看到什么、听到什么、闻到什么
场景上下文:在哪里、和谁、周围环境
情绪状态:当时的感受、身体反应
注意焦点:关注什么、忽略什么
内在思绪:当时的想法、预期、疑问

这就是为什么一段旋律、一种气味能瞬间唤起整段往事——线索命中的不是"事实条目",而是整个情境快照,快照一旦触发就会被整体回放。

3.2 快照不是复制,而是索引

这里有一个关键细节:大脑并不真的像相机那样"存下"完整画面。真正发生的是:

经历发生时,各皮层区域(视、听、语义、情绪)分别激活
海马体记录一个"索引",标记这一刻哪些皮层模式被共同激活
长期记忆 = 海马体保留的这条"共激活指针"

当未来某个线索触发时,海马体通过索引同步重新激活当时所有相关皮层——体验被"重新上演",而非"被读取"。

这解释了:

为什么回忆是多感官的、沉浸式的
为什么海马体损伤(如著名病人 H.M.)会导致无法形成新情节记忆,但旧记忆和技能保留
为什么每次回忆都会轻微改写记忆(reconsolidation)——因为"回放"本身就是一次新的学习

3.3 睡眠:快照的压缩与归档

海马体的容量有限,无法永久存储所有快照。大脑通过睡眠解决这个问题:

清醒时:海马体快速记录当日事件的索引
睡眠中(尤其慢波睡眠):海马体向新皮层反复回放这些索引
长期中:新皮层逐渐从多次回放中提取统计规律,形成独立的长期知识
最终:常识性内容沉淀进皮层,海马体的原始索引可以被弱化或替换

这个过程把情节记忆(具体事件)逐步转化为语义记忆(抽象知识)——就像把一堆原始照片,压缩归档成一本带主题标签的相册。

3.4 情绪是快照的"重要性标签"

并非所有快照都会被长期保留。情绪(尤其通过杏仁核与海马体的协作)决定了哪些快照值得反复回放、哪些被丢弃。

高情绪唤起的事件 → 海马体标记为"高优先级" → 睡眠中优先回放 → 快速固化
平淡无奇的事件 → 低优先级 → 很快被覆盖

这也是情绪记忆比事实记忆更顽固的生理原因。

四、扩散激活(Spreading Activation)

4.1 核心思想

扩散激活是检索算法——不需要遍历数据库,依靠能量在网络中的自然蔓延完成"查找"。由 Collins 与 Loftus 在 1975 年正式提出。

4.2 工作过程(四步)

第 1 步 · 入口激活 — 外部线索点亮对应节点,赋予初始激活值。

第 2 步 · 沿边扩散 — 激活沿所有相连边同时流动,遵循:

按边粗细分配(权重大的分到多)
距离衰减(每扩散一步能量衰减,通常 2–3 跳后趋近零)
并行扩散(所有方向同时进行)

$$a_j(t+1) = \sum_i w_{ij} \cdot a_i(t) \cdot \text{decay}$$

第 3 步 · 激活汇聚叠加 — 多线索同时输入时("AGI" + "俄罗斯人" + "保守预测"),激活从多个入口扩散,在共同相连的节点(卡巴斯基)上叠加。

单独想"AGI"可能激活一万个概念,三条线索的交汇点却只有少数几个——目标节点因此累积激活最高。

第 4 步 · 阈值触发 — 只有累积激活超过阈值的节点才"浮出水面"。接近阈值但没过的节点,就产生"话到嘴边"(tip-of-the-tongue)现象。

4.3 能解释的心理现象

现象	扩散激活解释
启动效应(priming)	前一概念的激活残留加速后续识别
舌尖现象	激活接近但未达阈值
联想流	激活在网络中自由扩散
情境依赖记忆	环境节点持续提供额外激活
情绪一致性回忆	情绪本身作为激活源
遗忘	权重衰减 + 基础激活降低,非"删除"

4.4 为什么这就是"模糊检索"

模糊检索是扩散激活的自然副产品:

任何节点都能作为入口 → 线索不完整也能检索
系统返回最高激活节点而非精确匹配 → 自动最佳匹配
上下文节点持续参与 → 同一线索在不同情境下路径不同
多线索自动求交集 → 噪声互相抵消,信号互相增强

五、整体模型:大脑如何组织整个记忆系统

5.1 Collins-Loftus 语义网络模型(1975)

最经典的上层描述:概念是节点,关系是带权边,扩散激活在此网络上运行。主要解释语义记忆(知识、概念、事实)。

5.2 ACT-R 模型(Anderson)

增加基础激活值(Base-Level Activation):

$$B_i = \ln\left(\sum_{k=1}^{n} t_k^{-d}\right)$$

随使用频率上升、随时间衰减。解释了常用信息提取快、久不用的信息"想不起来"——不是被删除,而是基础激活太低。

5.3 海马体索引理论

如 §3.2 所述,情节记忆通过海马体的"共激活索引"实现。海马体是记忆的指挥中心而非仓库。

5.4 互补学习系统(Complementary Learning Systems, CLS)

McClelland、McNaughton、O'Reilly 提出的理论,解决一个核心矛盾:大脑既要快速学习新信息,又不能灾难性地覆盖旧知识。

系统	位置	特性	功能
快学习系统	海马体	高可塑性、稀疏编码	快速记录单次事件
慢学习系统	新皮层	低可塑性、分布编码	缓慢提取统计规律

这是睡眠对记忆至关重要的理论基础,也与现代深度学习中的 经验回放(experience replay)机制直接对应。

5.5 预测编码(Predictive Coding)

现代主流框架:大脑不是被动记录,而是持续生成对世界的预测。

感知 = 预测 + 预测误差
记忆 = 用于生成预测的参数
学习 = 由预测误差驱动的权重更新
检索 = 由当前情境激发的预测性重建

六、大脑记忆与深度学习:不只是比喻

一个深刻的观察:现代深度学习中几乎所有核心机制,都能在大脑记忆系统中找到生物学原型——这不是偶然,因为 CNN、反向传播等架构最初就是受神经科学启发。

6.1 视觉皮层与 CNN:层次化特征提取

Hubel 与 Wiesel 在 1950–60 年代的诺贝尔奖工作发现,视觉皮层按层次组织:

V1 层:检测边缘、朝向、局部对比(类似 CNN 的第一卷积层)
V2 层:检测简单形状、纹理组合
V4 层:检测复杂形状、颜色
IT 层(下颞叶):检测物体、面孔(类似 CNN 的高层特征)

这个层次结构直接启发了 CNN。Yann LeCun 设计 LeNet 时就明确参考了 Hubel-Wiesel 模型。

关键同构:

局部感受野(local receptive field)→ CNN 的卷积核
同一特征检测器在整个视野重复使用 → CNN 的权重共享
简单细胞→复杂细胞的组合 → CNN 的卷积+池化
自底向上的抽象 → CNN 的深层特征

记忆层面的启示:一次"视觉快照"的记忆不是存一张图,而是存这张图在各层被激活的特征模式——和 CNN 的中间层激活非常类似。

6.2 记忆形成 ≈ 深度学习训练

把一次经历的记忆形成与神经网络训练放在一起看:

深度学习训练	大脑记忆形成
前向传播:输入经过各层	感知:信号经过各皮层层次
损失函数:预测与真实的差距	预测误差:大脑预测与实际输入的差异
反向传播:误差沿网络回传	神经调质广播:多巴胺等信号扩散至相关突触
梯度下降:按误差更新权重	赫布学习 + LTP:按共激活更新突触
Batch training:批量样本	海马体累积当日经历
多 epoch 训练:反复过同一数据	睡眠回放:海马体向皮层反复回放
正则化:防止过拟合	突触稳态调整:削弱过度连接
Experience replay(RL)	海马体睡眠回放
Learning rate scheduling	神经调质动态调节可塑性
预训练 → 微调	进化固化的先天结构 → 一生的个体学习

这个对应不是松散比喻,而是算法层面的深刻同构。很多深度学习的改进(Dropout、Batch Normalization、LSTM 的门控)都能在生物神经系统中找到对应。

6.3 检索 ≈ 前向推理 + 注意力

扩散激活与 Transformer 的注意力机制也有深刻相似:

Query:当前线索/问题
Keys:记忆网络中各节点的特征
Values:各节点携带的内容
Softmax 加权求和:最终输出

大脑扩散激活的"多线索汇聚叠加",与注意力机制"Query 对所有 Key 计算相似度后加权"是同一类操作的不同实现。

6.4 类比的边界:哪里不像

诚实地说,这个类比有局限:

大脑是持续在线学习的,没有明确的"训练阶段"和"推理阶段"分离
大脑的梯度下降不存在精确的反向传播——生物神经系统用的是局部学习规则(赫布+神经调质广播)的近似
大脑能从单个样本学习,当前深度学习远远做不到
大脑有明确的情绪系统作为全局调制,当前 AI 只有简单的奖励信号
大脑的"遗忘"是主动的、有选择性的,而 AI 的遗忘是被动的灾难性覆盖

这些差距正是当前 AI 研究的前沿方向。

七、四大机制如何协同

┌──────────────────┐
│  分布式表征       │  ← 记忆的物理形式
│  (存储结构)       │
└────────┬─────────┘
         │
         ↓
┌──────────────────┐
│  赫布学习         │  ← 关联如何建立
│  (突触权重)       │
└────────┬─────────┘
         │
         ↓
┌──────────────────┐
│  快照与巩固       │  ← 短期如何变长期
│  (海马体+睡眠)    │
└────────┬─────────┘
         │
         ↓
┌──────────────────┐
│  扩散激活         │  ← 记忆如何被找到
│  (检索算法)       │
└──────────────────┘

一次完整的记忆生命周期:

事件发生,多个皮层神经元群被激活(分布式表征)
神经调质调节下,共激活的突触增强(赫布学习)
海马体记录这一刻的共激活索引——完整的情境快照被建立
睡眠期间海马体反复回放,新皮层从中提取规律(互补学习系统)
多次回放后,皮层间直接连接固化,长期知识形成
未来某线索触发扩散激活,多条路径在目标节点汇聚(扩散激活)
超过阈值的节点重新同步激活原有皮层模式——快照被"重新上演"
每次回忆都是一次新的编码(reconsolidation),记忆在使用中演化

八、工程启示

生物机制	工程对应
分布式表征	Embedding 向量
赫布学习	梯度下降 / 反向传播
视觉皮层层次	CNN 架构
扩散激活	图随机游走 / 注意力机制
基础激活衰减	Recency / frequency 权重
海马体索引	RAG 中的检索索引
情境快照	多模态 embedding + 时间戳
睡眠回放	Experience replay
神经调质调节	动态 learning rate + RLHF
预测误差驱动	自监督学习的损失信号

当前 RAG(检索增强生成) 已经在模仿其中一部分:向量相似度实现模糊检索,LLM 做推理整合。但要真正接近人类记忆,还需要:

多时间尺度的可塑性:短期高塑性 + 长期稳定,像互补学习系统
情绪/显著性门控:不是所有信息都值得长期保留
情境依赖的动态权重:检索路径应随当前上下文变化
睡眠式离线巩固:模型需要"消化"而非只是"接收"
快照式情节记忆:不只存事实,也存上下文、情绪、时间

结语

人类记忆的高效,不在于存得多或取得准,而在于它的组织方式本身就是理解方式。

分布式表征让概念自然具备相似度结构
赫布学习让关联按重要性自动加权
快照机制让每一刻的完整情境被整体打包
扩散激活让检索、联想、推理使用同一套物理基础
睡眠巩固让具体经历升华为抽象知识

而这整套机制,正是现代深度学习试图逼近的目标。CNN 的层次、Transformer 的注意力、RL 的经验回放——都是在用工程方式重演大脑几亿年演化出的答案。

当我们说"想起"一件事时,其实是大脑在亿万突触的权重网络中,让一组神经元再次同步放电——记忆不是被取出的对象,而是被重建的过程。

Transformer

KV Cache

ChatGLM3典型计算图

Tokenization

Transformer in CV

新方法

Attention是不是必须的

神经网络的逻辑

改进大规模训练稀疏自编码器的方法

Transformer NLP到底有没有智能？

LLM大语言模型的训练

Transformer黑盒

NSA 稀疏注意力机制 by deepseek

FlashAttention

MLA by Deekseek

幻觉

LLM信息空间的映射

LLM推理行为

梯度下降-拟合高层次的信息

生物脑（人脑）的优势

意识（自我）

人脑的工作原理

仿真人脑的基本条件

人脑的推理模型

人脑的本能

大脑记忆的核心机制

CoT & 强化学习

分层LLM推理与Scaling思维模板

自然语言的内在逻辑

记忆

RAG

GraphRAG

记忆方法学

爬虫

思维编织器 WeaveMind

基于关键词的知识树系统设计方案

Meaning Dataset 详细介绍文档

附带meaning tree信息的数据集

AI突破的可能

计算模型

自洽后就有意识了吗？

动态算法

短期记忆和长期记忆

通用Agent的发展

一种理想的智能体编排架构

Agentic Engineering 智能体编排

私人LLM评测 数据集和结果

卷积计算的测试

复杂工程的实践测试

大脑记忆的核心机制

存储、连接、检索与深度学习的生物学原型

导读

一、分布式表征(Distributed Representation)

1.1 核心思想

1.2 多通道编码

1.3 为什么这是模糊检索的物理基础

1.4 与现代 AI 的对应

二、赫布学习与权重固化(Hebbian Learning & Weighting)

2.1 核心定律

2.2 突触权重的动态调整

2.3 情绪与注意是学习率的乘数

2.4 权重的衰减与竞争

三、短期记忆到长期记忆:快照与重构

3.1 长期记忆是短期记忆的"快照"

3.2 快照不是复制,而是索引

3.3 睡眠:快照的压缩与归档

3.4 情绪是快照的"重要性标签"

四、扩散激活(Spreading Activation)

4.1 核心思想

4.2 工作过程(四步)

4.3 能解释的心理现象

4.4 为什么这就是"模糊检索"

五、整体模型:大脑如何组织整个记忆系统

5.1 Collins-Loftus 语义网络模型(1975)

5.2 ACT-R 模型(Anderson)

5.3 海马体索引理论

5.4 互补学习系统(Complementary Learning Systems, CLS)

5.5 预测编码(Predictive Coding)

六、大脑记忆与深度学习:不只是比喻

6.1 视觉皮层与 CNN:层次化特征提取

私人LLM评测数据集和结果