Skip to main content

模型算法


读文章

https://mp.weixin.qq.com/s/miEziKZNdlnRym0qJlvqLw 内存墙问题既涉及有限的容量、内存传输带宽,也涉及其延迟(比带宽更难改善) 传统趋势表明...

汇总

效率挑战赛  https://llm-efficiency-challenge.github.io/index

采访 Hinton

https://mp.weixin.qq.com/s/W4x4WuorcGNbSWPtpEbwWg 事实证明,Ilya 的观点基本上是对的,虽然新想法如 Transformer 架构确实带来了...

具有意识的prompt

当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处...

query@key

   

Transformer研究

Transformer解析

精细的抽象,记忆空间特别大 在nlp问题里面,通过逐个处理新的token,递归得进行抽象 欠缺 记忆和人类不一致,而且没有统一的表达,不通用 没有自主意识,还是在算概率,逃不...

KV Cache

https://zhuanlan.zhihu.com/p/662498827

ChatGLM3典型计算图

## data flow ``` query -> "你好" | ...

Tokenization

注:作为术语的“tokenization”在中文中尚无共识的概念对应,本文档采用英文表达以利说明。 Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖tikt...

Transformer in CV

MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ ...

新方法

Llama 3 128K token 的分词器,这种分词器在编码语言时更加高效,这使得模型的性能得到了显著提升 分组查询注意力(GQA)技术 在训练过程中,我们让模型处理最多 8,19...

Attention是不是必须的

RNN容易梯度消失:梯度消失的本质问题是,网络太深了,这里的深代表信息表达的层级而不是拓扑,resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点:Transform...

神经网络的逻辑

量化 量化不是没有代价。Llama3模型的量化效果比Llama2模型要差,量化过程中的质量损失更大。 直觉是,一个训练不足的模型受到量化的影响较小,因为其训练过程并没有充分利用每一个权重。关...

改进大规模训练稀疏自编码器的方法

Ref :https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式,且每次输入几乎总会引发很密集的激活...

Transformer NLP到底有没有智能?

智能的定义 和人脑的区别和差异 “性能差异” 场景:通过对一段句子进行划分、分句、解析起表达的意思 我的祖国是中国: 我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我...

用推理的临时态实现意识--CoT

背景和方法 众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,评估中间结果,并在步骤出错或陷入僵局时进...

Mamba

SSM Mamba的定位 SSM/S4的中间变量为定长,所以必须使用最大的容量来表达整个句子的信息,要不然句子长了就存储不下,这又导致训练难 SSM/S4缺乏动态性(att...

无监督

统计模型 rank_tree表达了一短句子的逻辑分割,一段句子的分割,语意的组合,是抽象的一种, 两个不一样的表示表达的是同一个语义怎么办? 腿短的是狗,腿长的也是狗,有些逻辑不是组合能表达...

TTT - Learning to (Learn at Test Time)

研究人员设计了一类新的序列建模层,其中隐藏状态是模型,更新规则是自监督学习的一个步骤。 由于更新测试序列上隐藏状态的过程,相当于在测试时训练模型,因此此类新层称为测试时训练(TTT)层。 ...

AI算法的里面的“乘法”

原理 特征向量 表达了一堆的对象的集合,平铺得组合在一起,没有层级结构 向量内的每个对象都被量化后并且归一化 多个乘法再累加组成了线性变换 Y = A X_1 + ...

Kimi之长文本

营销 月之暗面的目标是C端,为了让C端用户能够理解“长文本”这个技术名词,杨植麟用了更形象的比喻“支持更长的上下文”意味着大模型拥有更大的“内存”。这个世界已经被计算机、手机教育过了,每个普通...

AI技术研究-衡量的标准

动态性 Transformer的“动态性决策”体现 Attention 本质上是利用dot计算,进行动态对信息的选取和重组 “动态选择”是提升算法效率的关键,类似于传统算法决策树的...

2D Transformer

2D Transformer是一种基于Transformer架构的神经网络,专门用于处理二维数据,如图像。Transformer最初是在自然语言处理(NLP)领域提出的,用于处理序列数据。然而,...

einsum

两个基本概念 自由索引(Free indices)和求和索引(Summation indices): 自由索引,出现在箭头右边的索引,比如上面的例子就是 i 和 j; 求和索引,只出现...