FlashAttention
Attention计算

对一个Softmax计算的切片
sub block的softmax的结果和所有block softmax的结果成比例关系
只要在最后对sub block的结果做个scale 乘法修正,就可以得到整个block的结果
Flash Attention计算Attention计算过程



sub block的softmax的结果和所有block softmax的结果成比例关系
只要在最后对sub block的结果做个scale 乘法修正,就可以得到整个block的结果

