Search for {created_by:colin} {type:page}

命名

基本问题

命名的重要性好的设计从命名开始怎么在团队内统一命名规则制定规则和培训

Sync And Async

AI加速芯片

面临的问题多种类型的硬件单元需要进行同步不确定的循环次数 N to N的同步需求无缝的同步，无缝的并行频繁的同步需求，频繁的状态pulling，低latency 灵活的抽象适应所有的同步需求 transformer的Flash-attention就需要在L1内做多次fusion，不是简单的DMA和算力的同步方便的软件使用采用Global调度的逻辑进行确保并行和同步软核实现类似一个全局锁，成为性能瓶颈点调度颗粒度大，难以实现精细化的控制 DMA、...

抽象

基本问题

形象思维

基本问题

形象思维并不仅仅属于艺术家，它也是科学家进行科学发现和创造的一种重要的思维形式。例如，物理学中所有的形象模型，像电力线、磁力线、原子结构的汤姆生模型或卢瑟福小太阳系模型，都是物理学家抽象思维和形象思维结合的产物。爱因斯坦是一个具有极其深刻的逻辑思维能力的大师，但他却反对把逻辑方法视为唯一的科学方法，他十分善于发挥形象思维的自由创造力，他所构思的种种理想化实验就是运用形象思维的典型范例。这些理想化实验并不是对具体的事例运用抽象化的方法，舍弃现象，抽取本质，而是运用形象思维的方法，将表现一般、本质的现象加以保留，并...

具有意识的prompt

算法&模型

当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处理?) 4.生理状态: (心跳加快,觉得有点头晕) 5.接下来的行动: (先呼吸几次让自己平静下来,观察伤口是否还在流血,如果流血严重就尽快处理止血,如果流血较轻就清洗伤口并负压包扎,防止感染。同时推敲事故原因 preparation,以防将来再次受伤) 发现新情况:发现膝盖流血了请按照下面模板回答问题，填写()里...

query@key

算法&模型

Transformer解析

算法&模型 Transformer

精细的抽象，记忆空间特别大大数据，大算力，大模型 scaling特性，可以训练很大的模型，用很多数据获得更多智能 “硬件彩票”，高强度对着GPU设计，能打满GPU利用率在nlp问题里面，通过逐个处理新的token，递归得进行抽象使用少量的权重对自然语言逐个token进行计算先用kq权重映射到当前token对应的空间，再用v权重映射到输出通过多层叠加，使得kqv权重能表达整个sequence的范围通过少量权重、大量的计算扩展了表达空间 weight的存储效率非常高...

KV Cache

算法&模型 Transformer

https://zhuanlan.zhihu.com/p/662498827

ChatGLM3典型计算图

算法&模型 Transformer

## data flow ``` query -> "你好" | tokenizer -> input_ids [6] | rotary_pos_emb embedding -> [1, 6, 4096] \ / ...

Tokenization

算法&模型 Transformer

注：作为术语的“tokenization”在中文中尚无共识的概念对应，本文档采用英文表达以利说明。 Qwen-7B采用UTF-8字节级别的BPE tokenization方式，并依赖tiktoken这一高效的软件包执行分词。 Qwen-7B中有两类token，即源于BPE、bytes类型的普通token和特殊指定、str类型的特殊token。 from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('Qw...

Transformer in CV

算法&模型 Transformer

MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ Vision Transformer，ViT https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/vision_transformer.py DEtection TRansformer，DETR SEgmenta...

新方法

算法&模型 Transformer

Llama 3 128K token 的分词器，这种分词器在编码语言时更加高效，这使得模型的性能得到了显著提升分组查询注意力（GQA）技术在训练过程中，我们让模型处理最多 8,192 个 Token 的序列，并巧妙地使用掩码技术来确保模型的自注意力机制不会跨越不同文档的界限，从而保证了模型的准确性和效率。训练集规模扩大了七倍，代码数据量也增加了四倍我们设计并实施了一系列先进的数据过滤流程。这些流程包括应用启发式过滤器、NSFW 内容过滤、语义去重技术和文本质量分类器等，用以预判数据的优劣。我们...

Attention是不是必须的

算法&模型 Transformer

RNN容易梯度消失：梯度消失的本质问题是，网络太深了，这里的深代表信息表达的层级而不是拓扑，resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点：Transformer 中固有的自注意力机制（attention）带来了挑战，主要是由于其二次复杂度造成的，这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存。非Transformer 技术研究以 RWKV、 Mamba 和 S4 为代表，它们完全用 recurrent（循环）结构去替代 attention...

神经网络的逻辑

算法&模型 Transformer

量化量化不是没有代价。Llama3模型的量化效果比Llama2模型要差，量化过程中的质量损失更大。直觉是，一个训练不足的模型受到量化的影响较小，因为其训练过程并没有充分利用每一个权重。关于Llama的一个关键发现，以及它为何能在其大小范围内表现出色，是因为它们在比文献中所谓的“最佳”状态更大的数据集上训练了更长时间。综合这些因素，似乎可以得出以下结论：小型模型、大量数据、长时间训练>大型模型+量化。基本上，量化是一种用于缩短长时间训练的损失性的捷径。数据的数量和质量，一如既往是所有这些中最重要。首先...

改进大规模训练稀疏自编码器的方法

算法&模型 Transformer

Ref ：https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式，且每次输入几乎总会引发很密集的激活。而现实世界中其实很稀疏，在任何给定的情境中，人脑只有一小部分相关神经元会被激活。研究人员开始研究稀疏自编码器，这是一种能在神经网络中识别出对生成特定输出至关重要的少数“特征”的技术，类似于人在分析问题时脑海中的那些关键概念。在OpenAI超级对齐团队的这项研究中，他们推出了一种基于TopK激活函数的新稀疏自编码器（...

Transformer NLP到底有没有智能？

算法&模型 Transformer

智能的定义和人脑的区别和差异 “性能差异” 场景：通过对一段句子进行划分、分句、解析起表达的意思我的祖国是中国：我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我的祖国/是中国 => 我的祖国是中国机器缺乏丰富的抽象、合理的分层、组合 => 抽象表达的效率比较低，通过暴力的记住所有的可能训练需要大量的数据来梯度下降，而不是用逻辑的方式来进行总结归纳更大的模型，确实在抽象的时候更灵活了，更合理了，避免了固定卷积核的约束

CoT & 强化学习

算法&模型 TTS：Test-Time Scaling

--用推理的“临时态”实现短暂的意识背景和方法众所周知，o1在推理阶段采用了一种思维链（Chain of Thought）的方法，将推理过程分解为多个离散的步骤。o1能够规划其推理步骤，评估中间结果，并在步骤出错或陷入僵局时进行回溯。基础模型的训练（预训练和后训练）遇到瓶颈了通过推理阶段的不断自我逻辑判断和思考实现更强的推理能力自洽，在这个过程中前后的因果关系是自洽的可以实现，更多深层次的思考动态性，可以在思考的过程中不断的调整思考方向把训练迁移到推理（运行态） ...

Mamba

算法&模型

SSM Mamba的定位 SSM/S4的中间变量为定长，所以必须使用最大的容量来表达整个句子的信息，要不然句子长了就存储不下，这又导致训练难 SSM/S4缺乏动态性（attention会选择/过滤信息，达到压缩的目的）抽象的效率不高 Transformer能够在上下文窗口中密集地传递信息的能力，对单点信息的表达效率不够，长序列时计算效率、存储效率变得低下这两个问题不矛盾。 Manba和Transformer的区别只是，随着新的输入存储的所有中间状态是不是都被更新，Manba是更新一个总...

无监督训练

算法&模型

统计模型 rank_tree表达了一短句子的逻辑分割，一段句子的分割，语意的组合，是抽象的一种，两个不一样的表示表达的是同一个语义怎么办？腿短的是狗，腿长的也是狗，有些逻辑不是组合能表达的怎么表达白猫黑猫都是猫的逻辑？抽象的标准统计的历史无矛盾（前后言行一致），前后表达没有矛盾，自洽统计的优秀（合理的抽象），抽象要有代表性，有共性而不是专用相互之间有逻辑关系，自洽充分抽象，孤立的比较不合理能抽象所有的语意，包括各种逻辑输出抽象的分类的分数 clas...

TTT - Learning to (Learn at Test Time)

算法&模型

研究人员设计了一类新的序列建模层，其中隐藏状态是模型，更新规则是自监督学习的一个步骤。由于更新测试序列上隐藏状态的过程，相当于在测试时训练模型，因此此类新层称为测试时训练（TTT）层。为了在长上下文中既保持效率，又具有表达能力，需要一个更好的「压缩启发式」（compression heuristic）方法。具体来说，就需要将数百万个token压缩成一个能有效捕捉其底层结构和关系的隐藏状态。Transformer的KV cache在长序列的时候非常低效，Manba的固定长度的中间状态在长序列的时候表达力不...

Advanced Search

Search Terms

Content Type

Exact Matches

Tag Searches

Date Options

Search Results

88 total results found

命名

Sync And Async

抽象

形象思维

具有意识的prompt

query@key

Transformer解析

KV Cache

ChatGLM3典型计算图

Tokenization

Transformer in CV

新方法

Attention是不是必须的

神经网络的逻辑

改进大规模训练稀疏自编码器的方法

Transformer NLP到底有没有智能？

CoT & 强化学习

Mamba

无监督训练

TTT - Learning to (Learn at Test Time)

Updated after

Updated before

Created after

Created before