Transformer研究

精细的抽象，记忆空间特别大在nlp问题里面，通过逐个处理新的token，递归得进行抽象欠缺记忆和人类不一致，而且没有统一的表达，不通用没有自主意识，还是在算概率，逃不...

https://zhuanlan.zhihu.com/p/662498827

## data flow ``` query -> "你好" | ...

注：作为术语的“tokenization”在中文中尚无共识的概念对应，本文档采用英文表达以利说明。 Qwen-7B采用UTF-8字节级别的BPE tokenization方式，并依赖tikt...

MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ ...

Llama 3 128K token 的分词器，这种分词器在编码语言时更加高效，这使得模型的性能得到了显著提升分组查询注意力（GQA）技术在训练过程中，我们让模型处理最多 8,19...

RNN容易梯度消失：梯度消失的本质问题是，网络太深了，这里的深代表信息表达的层级而不是拓扑，resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点：Transform...

量化量化不是没有代价。Llama3模型的量化效果比Llama2模型要差，量化过程中的质量损失更大。直觉是，一个训练不足的模型受到量化的影响较小，因为其训练过程并没有充分利用每一个权重。关...

Ref ：https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式，且每次输入几乎总会引发很密集的激活...

智能的定义和人脑的区别和差异 “性能差异” 场景：通过对一段句子进行划分、分句、解析起表达的意思我的祖国是中国：我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我...

背景和方法众所周知，o1在推理阶段采用了一种思维链（Chain of Thought）的方法，将推理过程分解为多个离散的步骤。o1能够规划其推理步骤，评估中间结果，并在步骤出错或陷入僵局时进...