# 分层LLM推理与Scaling思维模板

#### 通过复杂的人工设计的算法影响模型的功能和性能

1. 人类总是能在更高的维度来指导模型
2. 模型的自我学习能力还是不理想
3. 最后的瓶颈会是人类设计算法的复杂性，需要另外一种更通用、简单的方法来替代Transformer

#### ReasonFlux框架

1. 结构化通用思维模板库：包含约500个高层次思维模板，可泛化到类似或相关的推理问题。
2. 分层强化学习：在思维模板序列上执行强化学习，不再在长思维链（CoT）数据上进行优化，使基础LLM能够规划最优模板轨迹，逐步解决复杂问题。
3. 全新的推理Scaling系统：在推理过程中自适应Scaling思维模板，从而实现分层LLM推理。

#### 主要工作

1. 开发一种分层LLM推理框架，显著提升模型复杂推理能力。
2. 构建了一个结构化且精炼的模板库，包含约500个从高难度数学问题中提炼的思维模板。
3. 开发了基于高层次思维模板序列的分层强化学习，使LLM能够生成最优的思维模板轨迹，将复杂问题拆解为一系列更简单的子问题，从而有效减少推理路径的搜索空间。
4. 设计了一种新的推理Scaling系统，通过自适应Scaling思维模板来实现分层推理。该系统能够动态检索一系列高层次模板，并在推理过程中自适应执行实例化推理，实现高效的问题求解。