Skip to main content

Recently Updated Pages

附带meaning tree信息的数据集

算法&模型 meaning

115200 / | \ 10240 ...

Updated 9 months ago by Colin

第一性原理及公理化思维

基本问题

公理化思维,以第一性原理为根基,运用逻辑去找到超出我们认知极限问题的答案,进而建立起他理性思维体系。 古希腊哲学中的“原型”以中间的推理逻辑为实体,东方文明中的“原型”以结论为实体,这种微...

Updated 10 months ago by Colin

Triton

AI加速芯片

高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast cod...

Updated 1 year ago by Colin

边缘视觉的软件/硬件方案

AI加速芯片

软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线, CuPBoP  ,  Vortex Open GPGPU ...

Updated 1 year ago by Colin

测量线性稳压器的 2nV/√ Hz噪声和 120dB 电源抑制

https://www.analog.com/en/resources/app-notes/an-159.html an-159.pdf AN159_Layout_Files.zip ...

Updated 1 year ago by Colin

锂电池/电动车使用规则

磷酸铁锂,因为不能从电压判断电量,经常充满一次,为了更好得平衡电池,电池间的平衡比满电的损害更小 由于磷酸铁锂的每个电池的自放电、能量回收充电的速度不一样,所以时间一长需要平衡校准 ...

Updated 1 year ago by Colin

TTT - Learning to (Learn at Test Time)

算法&模型

研究人员设计了一类新的序列建模层,其中隐藏状态是模型,更新规则是自监督学习的一个步骤。 由于更新测试序列上隐藏状态的过程,相当于在测试时训练模型,因此此类新层称为测试时训练(TTT)层。 ...

Updated 1 year ago by Colin

Mamba

算法&模型

SSM Mamba的定位 SSM/S4的中间变量为定长,所以必须使用最大的容量来表达整个句子的信息,要不然句子长了就存储不下,这又导致训练难 SSM/S4缺乏动态性(att...

Updated 1 year ago by Colin

改进大规模训练稀疏自编码器的方法

算法&模型 Transformer

Ref :https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式,且每次输入几乎总会引发很密集的激活...

Updated 1 year ago by Colin

Transformer in CV

算法&模型 Transformer

MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ ...

Updated 1 year ago by Colin

query@key

算法&模型

   

Updated 1 year ago by Colin

KV Cache

算法&模型 Transformer

https://zhuanlan.zhihu.com/p/662498827

Updated 1 year ago by Colin

新方法

算法&模型 Transformer

Llama 3 128K token 的分词器,这种分词器在编码语言时更加高效,这使得模型的性能得到了显著提升 分组查询注意力(GQA)技术 在训练过程中,我们让模型处理最多 8,19...

Updated 1 year ago by Colin

Attention是不是必须的

算法&模型 Transformer

RNN容易梯度消失:梯度消失的本质问题是,网络太深了,这里的深代表信息表达的层级而不是拓扑,resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点:Transform...

Updated 1 year ago by Colin