梯度下降

梯度下降的每个step，都需要把所有的loss“汇总”
1. 包含所有batch，所有的loss function，以及在多个step之间，多个epoch之间
2. 等价于对数据集的统计、回归、拟合，最终效果只能达到统计上的意义
3. 训练效率低，有用信息密度低、容易被坏数据平均
相对于人脑
1. 缺乏思维的贪心原则
2. 缺少“自恰”的自主意识的判断
一个样本的梯度下降，相对于整个模型，所表达的是对参数分布的一个小的倾向性调整
1. 不能确保模型肯定掌握、认同这个样本
2. 有矛盾的样本会按照概率进行中和
3. 贪心法、高温度、反复强化自身的预测置信度，都能使模型对输出更自信
4. 不同的训练阶段，样本的作用不一样，预训练表示大范围的统计，微调/SFT 就需要明确的服从样本
它高度非凸。

而且从数学上完全没有任何保证能确保优化成功。

因此，如果你和一位研究优化理论的学者讨论，他们会告诉你，从理论上根本没有理由相信这种优化会奏效。

然而，事实证明它确实能成功——这是经验证明的结果。

纯粹靠理论，我们很难解释太多细节。

并不是因为这里有什么「魔法」，而只是说明我们还没完全搞清楚原理。

我们其实不清楚，为什么这些看似简单的启发式优化算法在这些问题上表现得如此出色。

因为没有任何数学定理或理论可以说明它们必然会成功。

我们真正期待的定理，应该反映「在现有条件下做到最好」这种理念。

然而，人类的智慧并不追求绝对最优，就像我们设计飞机或汽车时也不会力求完美。

我们只需要一个「够好」的工程系统就行。

深度学习和非凸优化给我们的，正是一群「够好」的系统。虽然它们可能不是最优解，却依然非常有用、充满潜力。

这就是事实。