Skip to main content

Recently Updated Pages

锂电池/电动车使用规则

磷酸铁锂,因为不能从电压判断电量,经常充满一次,为了更好得平衡电池,电池间的平衡比满电的损害更小 由于磷酸铁锂的每个电池的自放电、能量回收充电的速度不一样,所以时间一长需要平衡校准 ...

Updated 1 day ago by Colin

示波器SDS800XHD破解

参考链接 https://www.eet-china.com/mp/a307681.html https://blog.csdn.net/GLSWN8829/article/details/...

Updated 1 day ago by Colin

测量线性稳压器的 2nV/√ Hz噪声和 120dB 电源抑制

https://www.analog.com/en/resources/app-notes/an-159.html an-159.pdf AN159_Layout_Files.zip ...

Updated 1 day ago by Colin

婴幼儿中的喘鸣

https://www.msdmanuals.cn/home/children-s-health-issues/respiratory-disorders-in-infants-and-chil...

Updated 1 day ago by Colin

switch教程

【大气层双系统制作教程】 https://www.bilibili.com/video/BV16M411X79n/?share_source=copy_web 【腾讯文档】switch问题...

Updated 1 day ago by Colin

TTT - Learning to (Learn at Test Time)

模型算法

研究人员设计了一类新的序列建模层,其中隐藏状态是模型,更新规则是自监督学习的一个步骤。 由于更新测试序列上隐藏状态的过程,相当于在测试时训练模型,因此此类新层称为测试时训练(TTT)层。 ...

Updated 1 day ago by Colin

Mamba

模型算法

SSM Mamba的定位 SSM/S4的中间变量为定长,所以必须使用最大的容量来表达整个句子的信息,要不然句子长了就存储不下,这又导致训练难 SSM/S4缺乏动态性(att...

Updated 1 day ago by Colin

改进大规模训练稀疏自编码器的方法

模型算法 Transformer研究

Ref :https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式,且每次输入几乎总会引发很密集的激活...

Updated 1 day ago by Colin

神经网络的逻辑

模型算法 Transformer研究

量化 量化不是没有代价。Llama3模型的量化效果比Llama2模型要差,量化过程中的质量损失更大。 直觉是,一个训练不足的模型受到量化的影响较小,因为其训练过程并没有充分利用每一个权重。关...

Updated 1 day ago by Colin

Transformer in CV

模型算法 Transformer研究

MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ ...

Updated 1 day ago by Colin

AI技术研究-衡量的标准

模型算法

动态性 Transformer的“动态性决策”体现 Attention 本质上是利用dot计算,进行动态对信息的选取和重组 “动态选择”是提升算法效率的关键,类似于传统算法决策树的...

Updated 1 day ago by Colin

AI算法的里面的“乘法”

模型算法

原理 特征向量 表达了一堆的对象的集合,平铺得组合在一起,没有层级结构 向量内的每个对象都被量化后并且归一化 多个乘法再累加组成了线性变换 Y = A X_1 + ...

Updated 1 day ago by Colin

无监督

模型算法

统计模型 rank_tree表达了一短句子的逻辑分割,一段句子的分割,语意的组合,是抽象的一种, 两个不一样的表示表达的是同一个语义怎么办? 腿短的是狗,腿长的也是狗,有些逻辑不是组合能表达...

Updated 1 day ago by Colin

用推理的临时态实现意识--CoT

模型算法 Transformer研究

背景和方法 众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,评估中间结果,并在步骤出错或陷入僵局时进...

Updated 1 day ago by Colin

Transformer NLP到底有没有智能?

模型算法 Transformer研究

智能的定义 和人脑的区别和差异 “性能差异” 场景:通过对一段句子进行划分、分句、解析起表达的意思 我的祖国是中国: 我/的/祖国/是/中国 => 我的/祖国/是/中国 => 我...

Updated 1 day ago by Colin

KV Cache

模型算法 Transformer研究

https://zhuanlan.zhihu.com/p/662498827

Updated 1 day ago by Colin

query@key

模型算法

   

Updated 1 day ago by Colin

读文章

模型算法

https://mp.weixin.qq.com/s/miEziKZNdlnRym0qJlvqLw 内存墙问题既涉及有限的容量、内存传输带宽,也涉及其延迟(比带宽更难改善) 传统趋势表明...

Updated 1 day ago by Colin

Attention是不是必须的

模型算法 Transformer研究

RNN容易梯度消失:梯度消失的本质问题是,网络太深了,这里的深代表信息表达的层级而不是拓扑,resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点:Transform...

Updated 1 day ago by Colin

新方法

模型算法 Transformer研究

Llama 3 128K token 的分词器,这种分词器在编码语言时更加高效,这使得模型的性能得到了显著提升 分组查询注意力(GQA)技术 在训练过程中,我们让模型处理最多 8,19...

Updated 1 day ago by Colin