用推理的临时态实现意识--CoT
背景和方法
众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,评估中间结果,并在步骤出错或陷入僵局时进行回溯。
- 基础模型的训练(预训练和后训练)遇到瓶颈了
- 通过推理阶段的不断自我逻辑判断和思考实现更强的推理能力
- 自洽,在这个过程中前后的因果关系是自洽的
- 可以实现,更多深层次的思考
- 动态性,可以在思考的过程中不断的调整思考方向
- 把训练迁移到推理(运行态)
- 在推理的过程中实现“意识”,“意识”是AGI的关键能力
- 在self attention的基础上继续扩展了一个“动态性”的维度
- 在推理过程中不断寻找思路,实践,判断效果,实现了自动化的“蒙特卡洛树算法”
需要实现的前提
- 能自动的在推理的过程中压缩KV cache
- 能暂停输出,接受外界的输入,拼接到当前的kv cache中
- 能对当前的结论和临时状态进行判断和总结
- 怎么训练(改变模型的权重)?
- 好像只能通过不断的调整提示词来找到输出合理结果的方法
- 可以通过推理过程中,插入特定的外界输入来改变中间结果(kv cache)的方式来调整/训练
测试时训练(TTT)技术
能显著提高LLM进行逻辑推理和解决问题的能力。让大语言模型在推理时「边思考边执行」,即测试时计算(test-time compute)。这种方式能带来巨大的回报
传统的LLM主要依靠的是检索存储模式,但o3处理问题时,却是靠实时创建新程序,来解决不熟悉的挑战。
在不提高算法效率的前提下,暴力增加算力消耗,边际效应会原来明显,需要的算力将是指数级别的增加
思考的界面是是人类的语言
- 是不是有个更适合机器思考的语言?
- 人类不能用自然语言思考任何东西,比如数学和代码
- Chris Hay:这种语言的设计更适合 LLM,因此会减少为满足人类需求而设置的语法糖。所以编程语言本身将会发生演变。