Skip to main content

用推理的临时态实现意识--CoT

背景和方法

众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,评估中间结果,并在步骤出错或陷入僵局时进行回溯。

  1. 基础模型的训练(预训练和后训练)遇到瓶颈了
  2. 通过推理阶段的不断自我逻辑判断和思考实现更强的推理能力
    1. 自洽,在这个过程中前后的因果关系是自洽的
    2. 可以实现,更多深层次的思考
    3. 动态性,可以在思考的过程中不断的调整思考方向
  3. 把训练迁移到推理(运行态)
  4. 在推理的过程中实现“意识”,“意识”是AGI的关键能力
  5. 在self attention的基础上继续扩展了一个“动态性”的维度
  6. 在推理过程中不断寻找思路,实践,判断效果,实现了自动化的“蒙特卡洛树算法”

需要实现的前提

  1. 能自动的在推理的过程中压缩KV cache
  2. 能暂停输出,接受外界的输入,拼接到当前的kv cache中
  3. 能对当前的结论和临时状态进行判断和总结
  4. 怎么训练(改变模型的权重)?
    1. 好像只能通过不断的调整提示词来找到输出合理结果的方法
    2. 可以通过推理过程中,插入特定的外界输入来改变中间结果(kv cache)的方式来调整/训练

测试时训练(TTT)技术

能显著提高LLM进行逻辑推理和解决问题的能力。让大语言模型在推理时「边思考边执行」,即测试时计算(test-time compute)。这种方式能带来巨大的回报

传统的LLM主要依靠的是检索存储模式,但o3处理问题时,却是靠实时创建新程序,来解决不熟悉的挑战。

在不提高算法效率的前提下,暴力增加算力消耗,边际效应会原来明显,需要的算力将是指数级别的增加

思考的界面是是人类的语言

  1. 是不是有个更适合机器思考的语言?
    1. 人类不能用自然语言思考任何东西,比如数学和代码
    2. Chris Hay:这种语言的设计更适合 LLM,因此会减少为满足人类需求而设置的语法糖。所以编程语言本身将会发生演变。