采访 Hinton

https://mp.weixin.qq.com/s/W4x4WuorcGNbSWPtpEbwWg

事实证明，Ilya 的观点基本上是对的，虽然新想法如 Transformer 架构确实带来了很大帮助，但真正推动进步的是数据规模的扩大和计算能力的提升。

拥有更好直觉的人通常不会接受无用的信息。盲目相信所听到的一切，会导致形成模糊且不具备辨别力的思维框架，这是无益的。相反，那些拥有清晰思维框架的人，会在接收新信息时尝试将其与自己的认知框架相匹配，如果新信息不符合框架，则会选择拒绝。（我：自洽是大脑维持意识的基本能力）我认为，拥有一个坚定的世界观并据此筛选信息，是培养良好直觉的关键路径。如果你的直觉已经被验证是良好的，就应该相信它们。

预测下一个词的行为实际上迫使模型去理解语境，这种理解方式与人类的思维方式有相似之处。

AlphaGo 和 AlphaZero 的自我对弈是其能够做出这些创造性走法的重要原因。但我不认为这是完全必要的。

我故意在手写数字识别任务的训练集中加入了 50% 的错误标签，并保持这种状态。因此它不能通过简单地看到相同的例子，有时是正确答案，有时是错误答案，来平均消除错误。而即便如此，神经网络通过反向传播训练后，依然能够将错误率降低到 5% 或更低。这意味着网络有能力从错误中学习，区分哪些数据标记可能是错误的，并且从中提取出正确的模式。（我：最简单的模型也有抽象和统计的能力，只是强弱有区别而已）

人类通过直觉进行初步判断，并利用推理来修正和完善这些直觉。同样，AlphaGo 和 AlphaZero 这类系统通过结合直观的评估函数与深入的蒙特卡洛树搜索（Monte Carlo rollout）来优化决策，这种机制允许模型不仅仅模仿人类已有的知识和行为，还能在某种程度上创新。

多模态输入会让模型有显著的改进，尤其是在理解空间关系和物体方面。例如，一个能够“看”并“操作”物体的多模态系统相比仅依赖语言的系统，能更深刻地理解物体。虽然语言可以传达大量信息，但多模态学习因为结合了多种感官输入，提供了更加丰富的上下文，使得学习过程更为直接和高效。而且，利用多模态数据（如预测 YouTube 视频的下一帧）可以让模型获得更多的训练数据，同时减少对语言的依赖。因此，我认为这些多模态模型显然将会占据主导地位。通过这种方式，你可以获取更多数据。它们需要的语言更少。这里其实有一个哲学观点，即你可以仅通过语言学习到一个非常好的模型，但从多模态系统中学习要容易得多。

语言和逻辑的关系

首先是传统的符号观，即认知是基于明确、抽象的逻辑符号及符号操作，暗示语言与逻辑思维紧密相连，几乎构成认知的核心机制。这一观点倾向于认为人类大脑和语言是协同进化的，各自适应对方的存在与发展。所以，这是一种极端的观点。

与之相反的极端观点是，你的大脑内部全都是向量。这种观点认为，符号进入大脑会转换成大型向量，所有内部处理都是通过大型向量完成的。然后，如果你想生成输出，就再次生成符号。

但还有一种第三种观点，即我现在所相信的，那就是语言和思维过程中确实涉及符号，但这些符号通过多层次的嵌入表示（embedding representation）被丰富化了。但是，这些嵌入仍然与符号相关联，意味着每个符号都有一个大的向量，这些向量相互作用，以产生下一个词的符号向量。这就是所谓的“理解”。

“理解”就是知道如何将符号转换成这些向量，以及知道这些向量的元素应该如何相互作用来预测下一个符号的向量。这就是大语言模型和我们大脑中的理解。这是一个介于两者之间的例子。你仍然保留着符号，但你将其解释为这些大型向量，而所有的努力都集中在这里。所有的知识都体现在你使用的向量以及这些向量元素之间的相互作用上，而非符号规则。但这并不是说你可以完全摆脱符号。它的意思是将符号转化为庞大的向量，但仍然停留在符号的表层结构上。

这就是这些模型的工作原理。现在在我看来，这也同样是一个更合理的人类思维模型。

谷歌有一位非常优秀的研究员名叫费尔南多·佩雷拉（Fernando Pereira），他曾说过，"我们确实拥有符号推理，而我们拥有的唯一符号就是自然语言。自然语言是一种符号语言，我们用它进行推理。" 现在我对此深信不疑。

我：这里的关键是，运算的是连续的数值向量，还是不连续的符号，语言推理的本质是不是就是符号运算的本质？

快速权重：动态性的体现

我们仍需在时间尺度上与神经科学同步的一个重要领域是变化的时间尺度。在现有的神经网络模型中，通常只有两个时间尺度：一个是活动（如神经元激活状态）的快速变化，另一个是权重（长期学习参数）的缓慢调整。然而，人脑中存在多个时间尺度的权重变化，这允许了临时记忆的形成。

例如，我突然没由头地喊一句“黄瓜！”，五分钟后你戴上耳机，并在周围释放很多噪音，这时候听到的词很微弱，却更容易识别出“黄瓜”这个词 —— 因为我五分钟前说过。那么，这种知识在大脑中是如何存储的呢？显然是体现在突触的暂时性变化中，而不是神经元在对你说：“黄瓜，黄瓜，黄瓜。” 这体现在权重的暂时性变化上。通过权重的暂时性变化，你可以做很多事情，我称之为快速权重 —— 但在当前的神经模型中，我们并不这么做。

部分原因是，这些模型依赖于并行处理大量数据以实现高效的矩阵运算，而这与快速权重所需的依据输入数据动态调整权重的机制相冲突（我：可以动态调整权重，也可以动态更换权重来达到目的）。然而，快速权重对于实现更接近人脑的临时记忆功能至关重要。我曾非常期待像 Graphcore 这样的技术如果采用顺序处理并仅进行在线学习，就有可能利用快速权重。但目前这一设想尚未实现。我预测随着技术进步，特别是当开始使用电导作为权重表示时，这一问题有望得到解决。

思维方式：“我亲眼见到机器人表现出了情感”

大型神经网络模型的成功验证了这一观点的错误性：通过随机梯度下降不断调整权重，确实能够学习并掌握复杂知识。这一发现对于理解大脑的工作机制具有重要意义，表明大脑不必具备所有先天结构 —— 尽管大脑确有其固有的结构，但对于易于学习的事物，它并不需要特定的先天结构。

Transformer解析

KV Cache

ChatGLM3典型计算图

Tokenization

Transformer in CV

新方法

Attention是不是必须的

神经网络的逻辑

改进大规模训练稀疏自编码器的方法

Transformer NLP到底有没有智能？

用推理的临时态实现意识--CoT

采访 Hinton

https://mp.weixin.qq.com/s/W4x4WuorcGNbSWPtpEbwWg

语言和逻辑的关系

快速权重：动态性的体现

思维方式：“我亲眼见到机器人表现出了情感”

No Comments