动态算法
- Transformer类算法,依赖大维度的信息变换,相关性爆炸
- 也就是尺寸很大的矩阵乘法,虽然很适合现代GPU的加速
- 大的GEMM提供了非常大的状态空间,目标是包含所有的维度
- 使用固定路径的权重链路来完整得表达信息变换的过程
- 不管输入是什么,都要经过固定的计算路径,都要和所有的权重计算
- 虽然MoE,会有一定的动态性
- 但是目前还不明确能不能继续缩小激活比例
- 动态选择的空间不大
- 虽然有些策略已经减小部分
- attention
- 分层,分组MLP等等
- 但是,还是会造成相关性爆炸
- 大范围Reduce类操作的依赖
- 整个矩阵维度的累加
- softmax
- 交叉信息爆炸
- 大范围Reduce类操作的依赖
- 小GEMM+动态权重
- 使用很小的局部维度信息根据实际信息,动态得进行变换和按需要进行交叉、汇总、合并
No comments to display
No comments to display