分层LLM推理与Scaling思维模板

ReasonFlux框架

结构化通用思维模板库：包含约500个高层次思维模板，可泛化到类似或相关的推理问题。

分层强化学习：在思维模板序列上执行强化学习，不再在长思维链（CoT）数据上进行优化，使基础LLM能够规划最优模板轨迹，逐步解决复杂问题。

全新的推理Scaling系统：在推理过程中自适应Scaling思维模板，从而实现分层LLM推理。

主要工作

开发一种分层LLM推理框架，显著提升模型复杂推理能力。

构建了一个结构化且精炼的模板库，包含约500个从高难度数学问题中提炼的思维模板。

开发了基于高层次思维模板序列的分层强化学习，使LLM能够生成最优的思维模板轨迹，将复杂问题拆解为一系列更简单的子问题，从而有效减少推理路径的搜索空间。

设计了一种新的推理Scaling系统，通过自适应Scaling思维模板来实现分层推理。该系统能够动态检索一系列高层次模板，并在推理过程中自适应执行实例化推理，实现高效的问题求解。

Back to top