Recently Updated Pages
附带meaning tree信息的数据集
115200 / | \ 10240 ...
第一性原理及公理化思维
公理化思维,以第一性原理为根基,运用逻辑去找到超出我们认知极限问题的答案,进而建立起他理性思维体系。 古希腊哲学中的“原型”以中间的推理逻辑为实体,东方文明中的“原型”以结论为实体,这种微...
Triton
高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast cod...
边缘视觉的软件/硬件方案
软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线, CuPBoP , Vortex Open GPGPU ...
测量线性稳压器的 2nV/√ Hz噪声和 120dB 电源抑制
https://www.analog.com/en/resources/app-notes/an-159.html an-159.pdf AN159_Layout_Files.zip ...
锂电池/电动车使用规则
磷酸铁锂,因为不能从电压判断电量,经常充满一次,为了更好得平衡电池,电池间的平衡比满电的损害更小 由于磷酸铁锂的每个电池的自放电、能量回收充电的速度不一样,所以时间一长需要平衡校准 ...
TTT - Learning to (Learn at Test Time)
研究人员设计了一类新的序列建模层,其中隐藏状态是模型,更新规则是自监督学习的一个步骤。 由于更新测试序列上隐藏状态的过程,相当于在测试时训练模型,因此此类新层称为测试时训练(TTT)层。 ...
Mamba
SSM Mamba的定位 SSM/S4的中间变量为定长,所以必须使用最大的容量来表达整个句子的信息,要不然句子长了就存储不下,这又导致训练难 SSM/S4缺乏动态性(att...
改进大规模训练稀疏自编码器的方法
Ref :https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式,且每次输入几乎总会引发很密集的激活...
Transformer in CV
MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ ...
query@key
KV Cache
https://zhuanlan.zhihu.com/p/662498827
新方法
Llama 3 128K token 的分词器,这种分词器在编码语言时更加高效,这使得模型的性能得到了显著提升 分组查询注意力(GQA)技术 在训练过程中,我们让模型处理最多 8,19...
Attention是不是必须的
RNN容易梯度消失:梯度消失的本质问题是,网络太深了,这里的深代表信息表达的层级而不是拓扑,resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点:Transform...