Advanced Search
Search Results
74 total results found
命名
命名的重要性 好的设计从命名开始
Sync And Async
面临的问题 多种类型的硬件单元需要进行同步 不确定的循环次数 N to N的同步需求 无缝的同步,无缝的并行 频繁的同步需求,频繁的状态pulling,低latency 灵活的抽象适应所有的同步需求 transformer的Flash-attention就需要在L1内做多次fusion,不是简单的DMA和算力的同步 方便的软件使用 采用Global调度的逻辑进行确保并行和同步 软核实现 类似一个全局锁,成为性能瓶颈点 调度颗粒度大,难以实现精细化的控制 DMA、...
抽象
具有意识的prompt
当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处理?) 4.生理状态: (心跳加快,觉得有点头晕) 5.接下来的行动: (先呼吸几次让自己平静下来,观察伤口是否还在流血,如果流血严重就尽快处理止血,如果流血较轻就清洗伤口并负压包扎,防止感染。同时推敲事故原因 preparation,以防将来再次受伤) 发现新情况:发现膝盖流血了 请按照下面模板回答问题,填写()里...
query@key
Transformer解析
精细的抽象,记忆空间特别大 大数据,大算力,大模型 scaling特性,可以训练很大的模型,用很多数据获得更多智能 “硬件彩票”,高强度对着GPU设计,能打满GPU利用率 在nlp问题里面,通过逐个处理新的token,递归得进行抽象 使用少量的权重对自然语言逐个token进行计算 先用kq权重映射到当前token对应的空间,再用v权重映射到输出 通过多层叠加,使得kqv权重能表达整个sequence的范围 通过少量权重、大量的计算扩展了表达空间 weight的存储效率非常高...
KV Cache
https://zhuanlan.zhihu.com/p/662498827
ChatGLM3典型计算图
## data flow ``` query -> "你好" | tokenizer -> input_ids [6] | rotary_pos_emb embedding -> [1, 6, 4096] \ / ...
Tokenization
注:作为术语的“tokenization”在中文中尚无共识的概念对应,本文档采用英文表达以利说明。 Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖tiktoken这一高效的软件包执行分词。 Qwen-7B中有两类token,即源于BPE、bytes类型的普通token和特殊指定、str类型的特殊token。 from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('Qw...
Transformer in CV
MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ Vision Transformer,ViT https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/vision_transformer.py DEtection TRansformer,DETR SEgmenta...
新方法
Llama 3 128K token 的分词器,这种分词器在编码语言时更加高效,这使得模型的性能得到了显著提升 分组查询注意力(GQA)技术 在训练过程中,我们让模型处理最多 8,192 个 Token 的序列,并巧妙地使用掩码技术来确保模型的自注意力机制不会跨越不同文档的界限,从而保证了模型的准确性和效率。 训练集规模扩大了七倍,代码数据量也增加了四倍 我们设计并实施了一系列先进的数据过滤流程。这些流程包括应用启发式过滤器、NSFW 内容过滤、语义去重技术和文本质量分类器等,用以预判数据的优劣。我们...
Attention是不是必须的
RNN容易梯度消失:梯度消失的本质问题是,网络太深了,这里的深代表信息表达的层级而不是拓扑,resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点:Transformer 中固有的自注意力机制(attention)带来了挑战,主要是由于其二次复杂度造成的,这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存。 非Transformer 技术研究 以 RWKV、 Mamba 和 S4 为代表,它们完全用 recurrent(循环)结构去替代 attention...
神经网络的逻辑
量化 量化不是没有代价。Llama3模型的量化效果比Llama2模型要差,量化过程中的质量损失更大。 直觉是,一个训练不足的模型受到量化的影响较小,因为其训练过程并没有充分利用每一个权重。关于Llama的一个关键发现,以及它为何能在其大小范围内表现出色,是因为它们在比文献中所谓的“最佳”状态更大的数据集上训练了更长时间。 综合这些因素,似乎可以得出以下结论:小型模型、大量数据、长时间训练>大型模型+量化。基本上,量化是一种用于缩短长时间训练的损失性的捷径。数据的数量和质量,一如既往是所有这些中最重要。 首先...
改进大规模训练稀疏自编码器的方法
Ref :https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式,且每次输入几乎总会引发很密集的激活。而现实世界中其实很稀疏,在任何给定的情境中,人脑只有一小部分相关神经元会被激活。 研究人员开始研究稀疏自编码器,这是一种能在神经网络中识别出对生成特定输出至关重要的少数“特征”的技术,类似于人在分析问题时脑海中的那些关键概念。 在OpenAI超级对齐团队的这项研究中,他们推出了一种基于TopK激活函数的新稀疏自编码器(...
Transformer NLP到底有没有智能?
智能的定义 和人脑的区别和差异 “性能差异” 场景:通过对一段句子进行划分、分句、解析起表达的意思 我的祖国是中国: 我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我的祖国/是中国 => 我的祖国是中国 机器缺乏丰富的抽象、合理的分层、组合 => 抽象表达的效率比较低,通过暴力的记住所有的可能 训练 需要大量的数据来梯度下降,而不是用逻辑的方式来进行总结归纳 更大的模型,确实在抽象的时候更灵活了,更合理了,避免了固定卷积核的约束
CoT & 强化学习
--用推理的“临时态”实现短暂的意识 背景和方法 众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,评估中间结果,并在步骤出错或陷入僵局时进行回溯。 基础模型的训练(预训练和后训练)遇到瓶颈了 通过推理阶段的不断自我逻辑判断和思考实现更强的推理能力 自洽,在这个过程中前后的因果关系是自洽的 可以实现,更多深层次的思考 动态性,可以在思考的过程中不断的调整思考方向 把训练迁移到推理(运行态) 在...
Mamba
SSM Mamba的定位 SSM/S4的中间变量为定长,所以必须使用最大的容量来表达整个句子的信息,要不然句子长了就存储不下,这又导致训练难 SSM/S4缺乏动态性(attention会选择/过滤信息,达到压缩的目的)抽象的效率不高 Transformer能够在上下文窗口中密集地传递信息的能力,对单点信息的表达效率不够,长序列时计算效率、存储效率变得低下 这两个问题不矛盾。 Manba和Transformer的区别只是,随着新的输入存储的所有中间状态是不是都被更新,Manba是更新一个总...
无监督
统计模型 rank_tree表达了一短句子的逻辑分割,一段句子的分割,语意的组合,是抽象的一种, 两个不一样的表示表达的是同一个语义怎么办? 腿短的是狗,腿长的也是狗,有些逻辑不是组合能表达的 怎么表达白猫黑猫都是猫的逻辑? 抽象的标准 统计的历史无矛盾(前后言行一致),前后表达没有矛盾, 自洽 统计的优秀(合理的抽象),抽象要有代表性,有共性而不是专用 相互之间有逻辑关系,自洽 充分抽象,孤立的比较不合理 能抽象所有的语意,包括各种逻辑 输出抽象的分类的分数 clas...
TTT - Learning to (Learn at Test Time)
研究人员设计了一类新的序列建模层,其中隐藏状态是模型,更新规则是自监督学习的一个步骤。 由于更新测试序列上隐藏状态的过程,相当于在测试时训练模型,因此此类新层称为测试时训练(TTT)层。 为了在长上下文中既保持效率,又具有表达能力,需要一个更好的「压缩启发式」(compression heuristic)方法。具体来说,就需要将数百万个token压缩成一个能有效捕捉其底层结构和关系的隐藏状态。Transformer的KV cache在长序列的时候非常低效,Manba的固定长度的中间状态在长序列的时候表达力不...
AI算法的里面的“乘法”
原理 特征向量 表达了一堆的对象的集合,平铺得组合在一起,没有层级结构 向量内的每个对象都被量化后并且归一化 多个乘法再累加组成了线性变换 Y = A X_1 + B X_2 + C X_3 + ... 线性变换 表达了一个特征向量到另外一个特征的映射关系 通过按照特征/向量进行统计和汇总的方法 线性变换 8位足够满足人脑的实际精度需求 乘法 导致 不归一 乘法为了实现线性变换,为了对信号进行处理:信号通过权重进行选择 加法为了统计 神经元的内...