梯度下降
梯度下降的每个step,都需要把所有的loss“汇总”
包含所有batch,所有的loss function,以及在多个step之间,多个epoch之间
等价于对数据集的统计、回归、拟合,最终效果只能达到统计上的意义
训练效率低,有用信息密度低、容易被坏数据平均
相对于人脑
缺乏思维的贪心原则
缺少“自恰”的自主意识的判断
Revision #2
Created 13 February 2025 08:01:31 by Colin
Updated 3 May 2025 09:05:11 by Colin