Advanced Search
Search Results
52 total results found
思路
模型算法
玩
AI加速芯片
Transformer研究
命名
命名的重要性 好的设计从命名开始
读文章
https://mp.weixin.qq.com/s/miEziKZNdlnRym0qJlvqLw 内存墙问题既涉及有限的容量、内存传输带宽,也涉及其延迟(比带宽更难改善) 传统趋势表明,新的 NN 模型架构是根据研究人员在单芯片内的访问权限而开发的,而不是使用复杂的分布式内存方法 事实上,人工智能加速器的重大突破之一就是使用半精度(FP16)算术,这使得硬件计算能力提高了 10 倍以上。然而,利用当前的优化方法,在不降低精度的情况下进一步降低精度(从半精度降低到 INT8)一直是个难题。最近一个很有前途...
汇总
效率挑战赛 https://llm-efficiency-challenge.github.io/index
采访 Hinton
https://mp.weixin.qq.com/s/W4x4WuorcGNbSWPtpEbwWg 事实证明,Ilya 的观点基本上是对的,虽然新想法如 Transformer 架构确实带来了很大帮助,但真正推动进步的是数据规模的扩大和计算能力的提升。 拥有更好直觉的人通常不会接受无用的信息。盲目相信所听到的一切,会导致形成模糊且不具备辨别力的思维框架,这是无益的。相反,那些拥有清晰思维框架的人,会在接收新信息时尝试将其与自己的认知框架相匹配,如果新信息不符合框架,则会选择拒绝。(我:自洽是大脑维持意识的基本能...
具有意识的prompt
当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处理?) 4.生理状态: (心跳加快,觉得有点头晕) 5.接下来的行动: (先呼吸几次让自己平静下来,观察伤口是否还在流血,如果流血严重就尽快处理止血,如果流血较轻就清洗伤口并负压包扎,防止感染。同时推敲事故原因 preparation,以防将来再次受伤) 发现新情况:发现膝盖流血了 请按照下面模板回答问题,填写()里...
query@key
Transformer解析
精细的抽象,记忆空间特别大 在nlp问题里面,通过逐个处理新的token,递归得进行抽象 欠缺 记忆和人类不一致,而且没有统一的表达,不通用 没有自主意识,还是在算概率,逃不开数学上的特征分割,虽然不能证明当前的数学基础、梯度下降是错误的,但是AGI肯定不是只有这些,AGI更多的是一种复杂的工程,而不是简单几个公式 Transformer架构个在处理长上下文时,会受到二次复杂度(浪费算力),以及长度外推能力弱的限制。
KV Cache
https://zhuanlan.zhihu.com/p/662498827
ChatGLM3典型计算图
## data flow ``` query -> "你好" | tokenizer -> input_ids [6] | rotary_pos_emb embedding -> [1, 6, 4096] \ / ...
Tokenization
注:作为术语的“tokenization”在中文中尚无共识的概念对应,本文档采用英文表达以利说明。 Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖tiktoken这一高效的软件包执行分词。 Qwen-7B中有两类token,即源于BPE、bytes类型的普通token和特殊指定、str类型的特殊token。 from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('Qw...
Transformer in CV
MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ Vision Transformer,ViT https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/vision_transformer.py DEtection TRansformer,DETR SEgmenta...
新方法
Llama 3 128K token 的分词器,这种分词器在编码语言时更加高效,这使得模型的性能得到了显著提升 分组查询注意力(GQA)技术 在训练过程中,我们让模型处理最多 8,192 个 Token 的序列,并巧妙地使用掩码技术来确保模型的自注意力机制不会跨越不同文档的界限,从而保证了模型的准确性和效率。 训练集规模扩大了七倍,代码数据量也增加了四倍 我们设计并实施了一系列先进的数据过滤流程。这些流程包括应用启发式过滤器、NSFW 内容过滤、语义去重技术和文本质量分类器等,用以预判数据的优劣。我们...
Attention是不是必须的
RNN容易梯度消失:梯度消失的本质问题是,网络太深了,这里的深代表信息表达的层级而不是拓扑,resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点:Transformer 中固有的自注意力机制(attention)带来了挑战,主要是由于其二次复杂度造成的,这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存。 非Transformer 技术研究 以 RWKV、 Mamba 和 S4 为代表,它们完全用 recurrent(循环)结构去替代 attention...
神经网络的逻辑
量化 量化不是没有代价。Llama3模型的量化效果比Llama2模型要差,量化过程中的质量损失更大。 直觉是,一个训练不足的模型受到量化的影响较小,因为其训练过程并没有充分利用每一个权重。关于Llama的一个关键发现,以及它为何能在其大小范围内表现出色,是因为它们在比文献中所谓的“最佳”状态更大的数据集上训练了更长时间。 综合这些因素,似乎可以得出以下结论:小型模型、大量数据、长时间训练>大型模型+量化。基本上,量化是一种用于缩短长时间训练的损失性的捷径。数据的数量和质量,一如既往是所有这些中最重要。 首先...
改进大规模训练稀疏自编码器的方法
Ref :https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式,且每次输入几乎总会引发很密集的激活。而现实世界中其实很稀疏,在任何给定的情境中,人脑只有一小部分相关神经元会被激活。 研究人员开始研究稀疏自编码器,这是一种能在神经网络中识别出对生成特定输出至关重要的少数“特征”的技术,类似于人在分析问题时脑海中的那些关键概念。 在OpenAI超级对齐团队的这项研究中,他们推出了一种基于TopK激活函数的新稀疏自编码器(...
Transformer NLP到底有没有智能?
智能的定义 和人脑的区别和差异 “性能差异” 场景:通过对一段句子进行划分、分句、解析起表达的意思 我的祖国是中国: 我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我的祖国/是中国 => 我的祖国是中国 机器缺乏丰富的抽象、合理的分层、组合 => 抽象表达的效率比较低,通过暴力的记住所有的可能 训练 需要大量的数据来梯度下降,而不是用逻辑的方式来进行总结归纳 更大的模型,确实在抽象的时候更灵活了,更合理了,避免了固定卷积核的约束
用推理的临时态实现意识--CoT
背景和方法 众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,评估中间结果,并在步骤出错或陷入僵局时进行回溯。 基础模型的训练(预训练和后训练)遇到瓶颈了 通过推理阶段的不断自我逻辑判断和思考实现更强的推理能力 自洽,在这个过程中前后的因果关系是自洽的 可以实现,更多深层次的思考 动态性,可以在思考的过程中不断的调整思考方向 把训练迁移到推理(运行态) 在推理的过程中实现“意识”,“意识”是AG...
Mamba
SSM Mamba的定位 SSM/S4的中间变量为定长,所以必须使用最大的容量来表达整个句子的信息,要不然句子长了就存储不下,这又导致训练难 SSM/S4缺乏动态性(attention会选择/过滤信息,达到压缩的目的)抽象的效率不高 Transformer能够在上下文窗口中密集地传递信息的能力,对单点信息的表达效率不够,长序列时计算效率、存储效率变得低下 这两个问题不矛盾。 Manba和Transformer的区别只是,随着新的输入存储的所有中间状态是不是都被更新,Manba是更新一个总...
无监督
统计模型 rank_tree表达了一短句子的逻辑分割,一段句子的分割,语意的组合,是抽象的一种, 两个不一样的表示表达的是同一个语义怎么办? 腿短的是狗,腿长的也是狗,有些逻辑不是组合能表达的 怎么表达白猫黑猫都是猫的逻辑? 抽象的标准 统计的历史无矛盾(前后言行一致),前后表达没有矛盾, 自洽 统计的优秀(合理的抽象),抽象要有代表性,有共性而不是专用 相互之间有逻辑关系,自洽 充分抽象,孤立的比较不合理 能抽象所有的语意,包括各种逻辑 输出抽象的分类的分数 clas...
TTT - Learning to (Learn at Test Time)
研究人员设计了一类新的序列建模层,其中隐藏状态是模型,更新规则是自监督学习的一个步骤。 由于更新测试序列上隐藏状态的过程,相当于在测试时训练模型,因此此类新层称为测试时训练(TTT)层。 为了在长上下文中既保持效率,又具有表达能力,需要一个更好的「压缩启发式」(compression heuristic)方法。具体来说,就需要将数百万个token压缩成一个能有效捕捉其底层结构和关系的隐藏状态。Transformer的KV cache在长序列的时候非常低效,Manba的固定长度的中间状态在长序列的时候表达力不...