Skip to main content

Recently Updated Pages

AI算法的里面的“乘法”

算法&模型

原理 特征向量 表达了一堆的对象的集合,平铺得组合在一起,没有层级结构 向量内的每个对象都被量化后并且归一化 多个乘法再累加组成了线性变换 Y = A X_1 + ...

Updated 6 months ago by Colin

Transformer NLP到底有没有智能?

算法&模型 Transformer

智能的定义 和人脑的区别和差异 “性能差异” 场景:通过对一段句子进行划分、分句、解析起表达的意思 我的祖国是中国: 我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我...

Updated 6 months ago by Colin

KV Cache

算法&模型 Transformer

https://zhuanlan.zhihu.com/p/662498827

Updated 6 months ago by Colin

query@key

算法&模型

   

Updated 6 months ago by Colin

Attention是不是必须的

算法&模型 Transformer

RNN容易梯度消失:梯度消失的本质问题是,网络太深了,这里的深代表信息表达的层级而不是拓扑,resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点:Transform...

Updated 6 months ago by Colin

新方法

算法&模型 Transformer

Llama 3 128K token 的分词器,这种分词器在编码语言时更加高效,这使得模型的性能得到了显著提升 分组查询注意力(GQA)技术 在训练过程中,我们让模型处理最多 8,19...

Updated 6 months ago by Colin

Tokenization

算法&模型 Transformer

注:作为术语的“tokenization”在中文中尚无共识的概念对应,本文档采用英文表达以利说明。 Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖tikt...

Updated 6 months ago by Colin

ChatGLM3典型计算图

算法&模型 Transformer

## data flow ``` query -> "你好" | ...

Updated 6 months ago by Colin