Skip to main content

模型能力的衡量标准

动态性

Transformer的“动态性决策”体现


  1. Attention 本质上是利用dot计算,进行动态对信息的选取和重组
  2. “动态选择”是提升算法效率的关键,类似于传统算法决策树的“减支”,能有效的增大搜索空间而不大幅增大推理算力需求
  3. 不管是RNN还是transformer都是在表达一个决策的过程,效率越高,越容易使用现成的硬件加速,越容易被训练(梯度下降),最终的效果越好

CoT全称Chain of Thought

  1. CoT是神经网络使用“语言”作为接口定义(对象的抽象)进行运算,进行反复推理,是在attention的一个层级的动态性上面再施加一层动态性
  2. CoT 相当于强行约束LLM的输出是按照推理的范式,利用语言作为接口定义,输出推理过程的模版
  3. 通过增加约束,减少搜索空间,在原来LLM直接输出的基础上继续提高整个算法表达和推理的深度,
  4. CoT也是一个动态运算的过程,前面的输出作为后面的输入

人类

人类有所谓的「启发式」思考,「直觉」让我们能将数百万种可能性快速缩减至几种可行的解决方案。

Khaoutar El Maghraoui:我认为有很多关于实时计算优化的工作被低估了。例如,像测试期计算(test-time compute)这样的技术,它允许 AI 模型在推理过程中动态分配额外的计算资源。这是我们在 OpenAI o1 模型中看到的技术,它真的在这里树立了一些重要的先例,它允许模型有效地分解复杂问题,某种程度上模仿了人类推理的方式。这也对我们设计这些模型的方式以及模型与硬件的交互方式产生了深远影响。在这种情况下,它推动了更多的硬件软件协同设计,特别是在推理过程中的处理优化。

算法的约束设计

  1. “卷积” 是对模型在图像领域的一种约束,非常高效的表达了图像的特性,极大得降低了搜索空间
  2. “Attention”是对语言(token)映射的约束,强制把一堆token约束(表达)成一个特定的语义
  3. “multi-Head”是对实际因素相关性的约束

效率

  1. 表达的效率
    1. 处理代表性不足的领域,尽管LLM接受了大量通用数据的训练,但它们可能并不总是精通每一个特定领域的细微差别的行话、术语或具体情况,需要尽可能提高模型权重的表达效率才能容纳足够多的信息
      1. Phi-2对金融数据情绪分析准确率,从34%提高到85%。
      2. 仅用100个示例,ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。
      3. 但是情绪分析是一个比较通用的基础能力,预训练已经有较好的表达
      4. 这个任务就像mnist数据集到90%以上很容易,但是要到100%很难
    2. 合理的抽象和表示一个复杂的事物/逻辑关系等等
  2. 知识组织的效率
  3. 训练/学习的效率
    1. 遍历和判断整个因素空间的效率

知识的关联度/抽象程度

  1. 知识不是孤立存在的单一实体,是要和其他的知识进行关联
  2. 优秀的抽象,能高效的组织知识

规模

  1. 数据规模
  2. 参数规模
  3. 算力规模

自洽性

  1. 幻觉是一个非常典型的问题,是自洽能力不足的体现

记忆

上下文能力

  1. 同时处理上下文的长度
  2. 同时处理注意力的个数