Recently Updated Pages
AI算法的里面的“乘法”
算法&模型
Updated 6 months ago by Colin
原理 特征向量 表达了一堆的对象的集合,平铺得组合在一起,没有层级结构 向量内的每个对象都被量化后并且归一化 多个乘法再累加组成了线性变换 Y = A X_1 + ...
Transformer NLP到底有没有智能?
算法&模型
Transformer
Updated 6 months ago by Colin
智能的定义 和人脑的区别和差异 “性能差异” 场景:通过对一段句子进行划分、分句、解析起表达的意思 我的祖国是中国: 我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我...
KV Cache
算法&模型
Transformer
Updated 6 months ago by Colin
https://zhuanlan.zhihu.com/p/662498827
query@key
算法&模型
Updated 6 months ago by Colin
Attention是不是必须的
算法&模型
Transformer
Updated 6 months ago by Colin
RNN容易梯度消失:梯度消失的本质问题是,网络太深了,这里的深代表信息表达的层级而不是拓扑,resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点:Transform...
新方法
算法&模型
Transformer
Updated 6 months ago by Colin
Llama 3 128K token 的分词器,这种分词器在编码语言时更加高效,这使得模型的性能得到了显著提升 分组查询注意力(GQA)技术 在训练过程中,我们让模型处理最多 8,19...
Tokenization
算法&模型
Transformer
Updated 6 months ago by Colin
注:作为术语的“tokenization”在中文中尚无共识的概念对应,本文档采用英文表达以利说明。 Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖tikt...
ChatGLM3典型计算图
算法&模型
Transformer
Updated 6 months ago by Colin
## data flow ``` query -> "你好" | ...