Skip to main content

分层LLM推理与Scaling思维模板

通过复杂的人工设计的算法影响模型的功能和性能

  1. 人类总是能在更高的维度来指导模型
  2. 模型的自我学习能力还是不理想
  3. 最后的瓶颈会是人类设计算法的复杂性,需要另外一种更通用、简单的方法来替代Transformer

 

ReasonFlux框架

  1. 结构化通用思维模板库:包含约500个高层次思维模板,可泛化到类似或相关的推理问题。
  2. 分层强化学习:在思维模板序列上执行强化学习,不再在长思维链(CoT)数据上进行优化,使基础LLM能够规划最优模板轨迹,逐步解决复杂问题。
  3. 全新的推理Scaling系统:在推理过程中自适应Scaling思维模板,从而实现分层LLM推理。

主要工作

  1. 开发一种分层LLM推理框架,显著提升模型复杂推理能力。
  2. 构建了一个结构化且精炼的模板库,包含约500个从高难度数学问题中提炼的思维模板。
  3. 开发了基于高层次思维模板序列的分层强化学习,使LLM能够生成最优的思维模板轨迹,将复杂问题拆解为一系列更简单的子问题,从而有效减少推理路径的搜索空间。
  4. 设计了一种新的推理Scaling系统,通过自适应Scaling思维模板来实现分层推理。该系统能够动态检索一系列高层次模板,并在推理过程中自适应执行实例化推理,实现高效的问题求解。