Recently Updated Pages

附带meaning tree信息的数据集

算法&模型 meaning

115200 / | \ 10240 ...

Updated 9 months ago by Colin

第一性原理及公理化思维

基本问题

公理化思维，以第一性原理为根基，运用逻辑去找到超出我们认知极限问题的答案，进而建立起他理性思维体系。古希腊哲学中的“原型”以中间的推理逻辑为实体，东方文明中的“原型”以结论为实体，这种微...

Updated 10 months ago by Colin

Triton

AI加速芯片

高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast cod...

Updated 1 year ago by Colin

边缘视觉的软件/硬件方案

AI加速芯片

软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线， CuPBoP ， Vortex Open GPGPU ...

Updated 1 year ago by Colin

测量线性稳压器的 2nV/√ Hz噪声和 120dB 电源抑制

玩

https://www.analog.com/en/resources/app-notes/an-159.html an-159.pdf AN159_Layout_Files.zip ...

Updated 1 year ago by Colin

锂电池/电动车使用规则

玩

磷酸铁锂，因为不能从电压判断电量，经常充满一次，为了更好得平衡电池，电池间的平衡比满电的损害更小由于磷酸铁锂的每个电池的自放电、能量回收充电的速度不一样，所以时间一长需要平衡校准 ...

Updated 1 year ago by Colin

TTT - Learning to (Learn at Test Time)

算法&模型

研究人员设计了一类新的序列建模层，其中隐藏状态是模型，更新规则是自监督学习的一个步骤。由于更新测试序列上隐藏状态的过程，相当于在测试时训练模型，因此此类新层称为测试时训练（TTT）层。 ...

Updated 1 year ago by Colin

Mamba

算法&模型

SSM Mamba的定位 SSM/S4的中间变量为定长，所以必须使用最大的容量来表达整个句子的信息，要不然句子长了就存储不下，这又导致训练难 SSM/S4缺乏动态性（att...

Updated 1 year ago by Colin

改进大规模训练稀疏自编码器的方法

算法&模型 Transformer

Ref ：https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg 神经网络中的激活通常表现出不可预测和复杂的模式，且每次输入几乎总会引发很密集的激活...

Updated 1 year ago by Colin

Transformer in CV

算法&模型 Transformer

MEGALODON https://arxiv.org/pdf/2404.08801.pdf Vision Mamba https://github.com/hustvl/Vim/ ...

Updated 1 year ago by Colin

query@key

算法&模型

Updated 1 year ago by Colin

KV Cache

算法&模型 Transformer

https://zhuanlan.zhihu.com/p/662498827

Updated 1 year ago by Colin

新方法

算法&模型 Transformer

Llama 3 128K token 的分词器，这种分词器在编码语言时更加高效，这使得模型的性能得到了显著提升分组查询注意力（GQA）技术在训练过程中，我们让模型处理最多 8,19...

Updated 1 year ago by Colin

Attention是不是必须的

算法&模型 Transformer

RNN容易梯度消失：梯度消失的本质问题是，网络太深了，这里的深代表信息表达的层级而不是拓扑，resnet就是解决这个问题 Transformer 的强大之处同时也是它的弱点：Transform...

Updated 1 year ago by Colin