# 模型能力的衡量标准--基础性能特征

### 动态性

##### Transformer的“动态性决策”体现

1. Attention 本质上是利用dot计算，进行动态对信息的选取和重组
    1. 增加模型表达的非线性能力，利用有限的参数量表示（覆盖）更大的向量空间，提升表达效率
2. “动态选择”是提升算法效率的关键，类似于传统算法决策树的“剪支”，能有效的增大搜索空间而不大幅增大推理算力需求
    1. 在现代的LLM发展中，越来越多的MoE（依赖TopK）、Token窗口，都是在动态裁剪出需要的信息
3. 不管是RNN还是transformer都是在表达一个决策的过程，效率越高，越容易使用现成的硬件加速，越容易被训练（梯度下降），最终的效果越好
4. 模型层级结构固定，适应性弱 ，抽象知识层级有限？

##### *CoT*，*全称*Chain of Thought

1. CoT是神经网络使用“语言”作为接口定义（对象的抽象）进行运算，进行反复推理，是在attention的一个层级的动态性上面再施加一层动态性
2. CoT 相当于强行约束LLM的输出是按照推理的范式，利用语言作为接口定义，输出推理过程的模版
3. 通过增加约束，减少搜索空间，在原来LLM直接输出的基础上继续提高整个算法表达和推理的深度，
4. CoT也是一个动态运算的过程，前面的输出作为后面的输入

##### 人类

人类有所谓的「启发式」思考，「直觉」让我们能将数百万种可能性快速缩减至几种可行的解决方案。

**Khaoutar El Maghraoui：**我认为有**很多关于实时计算优化的工作被低估了**。例如，像测试期计算（test-time compute）这样的技术，它允许 AI 模型在推理过程中动态分配额外的计算资源。这是我们在 OpenAI o1 模型中看到的技术，它真的在这里树立了一些重要的先例，它允许模型有效地分解复杂问题，某种程度上模仿了人类推理的方式。这也对我们设计这些模型的方式以及模型与硬件的交互方式产生了深远影响。在这种情况下，它推动了更多的硬件软件协同设计，特别是在推理过程中的处理优化。

### 算法的约束设计

1. “卷积” 是对模型在图像领域的一种约束，非常高效的表达了图像的特性，极大得降低了搜索空间
2. “Attention”是对语言（token）映射的约束，强制把一堆token约束（表达）成一个特定的语义
3. “multi-Head”是对实际因素相关性的约束

### 效率

1. 表达的效率
    1. 处理代表性不足的领域，尽管LLM接受了大量通用数据的训练，但它们可能并不总是精通每一个特定领域的细微差别的行话、术语或具体情况，需要尽可能提高模型权重的表达效率才能容纳足够多的信息

        1. Phi-2对金融数据情绪分析准确率，从34%提高到85%。
        2. 仅用100个示例，ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。
        3. 但是情绪分析是一个比较通用的基础能力，预训练已经有较好的表达
        4. 这个任务就像mnist数据集到90%以上很容易，但是要到100%很难
    2. 合理的抽象和表示一个复杂的事物/逻辑关系等等
2. 知识组织的效率
3. 训练/学习的效率
    1. 遍历和判断整个因素空间的效率
4. 不改变算法的前提下，提升能力的代价是指数的算力需求
    1. 比如CoT和RL训练都需要大量的算力
    2. 人类实际上也在进行持续的尝试和推理，但是效率非常高
5. 效率来源
    1. 运算效率：动态性，决策
    2. 表达效率：抽象程度和等级

## 知识的关联度/抽象程度 抽象的层级

1. 知识不是孤立存在的单一实体，是要和其他的知识进行关联
2. 优秀的抽象，能高效的组织知识

## 自洽性

1. **幻觉**是一个非常典型的问题，是自洽能力不足的体现
    1. 幻觉的产生的原因
        1. 训练样本的天然分布缺陷，维持自洽的原则，能打破样本的天然分布缺陷。
        2. 价值函数的片面性，导致LLM即使不知道答案也要输出结果的设定，加重了不自洽
2. 新旧记忆混乱，不能判断和解决冲突 [https://arxiv.org/abs/2506.08184](https://arxiv.org/abs/2506.08184)
3. 自洽的能力是保持长程任务的高信噪比
    1. 只有自洽得一步一步得处理信息，才能有一定的可持续性
4. 当前LLM自洽性最高的是在KV cache里面
    1. 但是，越长的上下文（越大的kvcache）其体现出来的自洽性越差，幻觉出现的概率越高

记忆规模

1. 数据规模、知识的规模
    1. 搜索空间、知识空间的大小
2. 参数规模
3. 算力规模
4. 上下文处理（感知）能力
    1. 不等价于KV cache大小，存储大量的kv也不代表能感知所有的细节

## 上下文能力

1. 同时处理上下文的长度
2. 同时处理注意力的个数