梯度下降
- 梯度下降的每个step,都需要把所有的loss“汇总”
- 包含所有batch,所有的loss function,以及在多个step之间,多个epoch之间
- 等价于对数据集的统计、回归、拟合,最终效果只能达到统计上的意义
- 训练效率低,有用信息密度低、容易被坏数据平均
- 相对于人脑
- 缺乏思维的贪心原则
- 缺少“自恰”的自主意识的判断
- 一个样本的梯度下降,相对于整个模型,所表达的是对参数分布的一个小的倾向性调整
- 不能确保模型肯定掌握、认同这个样本
- 有矛盾的样本会按照概率进行中和
- 贪心法、高温度、反复强化自身的预测置信度,都能使模型对输出更自信
- 不同的训练阶段,样本的作用不一样,预训练表示大范围的统计,微调/SFT 就需要明确的服从样本