分层LLM推理与Scaling思维模板
ReasonFlux框架
- 结构化通用思维模板库:包含约500个高层次思维模板,可泛化到类似或相关的推理问题。
- 分层强化学习:在思维模板序列上执行强化学习,不再在长思维链(CoT)数据上进行优化,使基础LLM能够规划最优模板轨迹,逐步解决复杂问题。
- 全新的推理Scaling系统:在推理过程中自适应Scaling思维模板,从而实现分层LLM推理。
主要工作
- 开发一种分层LLM推理框架,显著提升模型复杂推理能力。
- 构建了一个结构化且精炼的模板库,包含约500个从高难度数学问题中提炼的思维模板。
- 开发了基于高层次思维模板序列的分层强化学习,使LLM能够生成最优的思维模板轨迹,将复杂问题拆解为一系列更简单的子问题,从而有效减少推理路径的搜索空间。
- 设计了一种新的推理Scaling系统,通过自适应Scaling思维模板来实现分层推理。该系统能够动态检索一系列高层次模板,并在推理过程中自适应执行实例化推理,实现高效的问题求解。