Advanced Search
Search Results
159 total results found
无监督训练
统计模型 rank_tree表达了一短句子的逻辑分割,一段句子的分割,语意的组合,是抽象的一种, 两个不一样的表示表达的是同一个语义怎么办? 腿短的是狗,腿长的也是狗,有些逻辑不是组合能表达的 怎么表达白猫黑猫都是猫的逻辑? 抽象的标准 统计的历史无矛盾(前后言行一致),前后表达没有矛盾, 自洽 统计的优秀(合理的抽象),抽象要有代表性,有共性而不是专用 相互之间有逻辑关系,自洽 充分抽象,孤立的比较不合理 能抽象所有的语意,包括各种逻辑 输出抽象的分类的分数 class 128 x 128 x 128 ...
TTT - Learning to (Learn at Test Time)
研究人员设计了一类新的序列建模层,其中隐藏状态是模型,更新规则是自监督学习的一个步骤。 由于更新测试序列上隐藏状态的过程,相当于在测试时训练模型,因此此类新层称为测试时训练(TTT)层。 为了在长上下文中既保持效率,又具有表达能力,需要一个更好的「压缩启发式」(compression heuristic)方法。具体来说,就需要将数百万个token压缩成一个能有效捕捉其底层结构和关系的隐藏状态。Transformer的KV cache在长序列的时候非常低效,Manba的固定长度的中间状态在长序列的时候表达力不...
AI算法的里面的“乘法”
原理 特征向量 表达了一堆的对象的集合,平铺得组合在一起,没有层级结构 向量内的每个对象都被量化后并且归一化 多个乘法再累加组成了线性变换 Y = A X_1 + B X_2 + C X_3 + ... 线性变换 表达了一个特征向量到另外一个特征的映射关系 通过按照特征/向量进行统计和汇总的方法 线性变换 8位足够满足人脑的实际精度需求 乘法 导致 不归一 乘法为了实现线性变换,为了对信号进行处理:信号通过权重进行选择 加法为了统计 神经元的内部状态是fp32,输入输出是int8 学习 => ...
模型能力的衡量标准--基础性能特征
动态性 Transformer的“动态性决策”体现 Attention 本质上是利用dot计算,进行动态对信息的选取和重组 增加模型表达的非线性能力,利用有限的参数量表示(覆盖)更大的向量空间,提升表达效率 “动态选择”是提升算法效率的关键,类似于传统算法决策树的“剪支”,能有效的增大搜索空间而不大幅增大推理算力需求 在现代的LLM发展中,越来越多的MoE(依赖TopK)、Token窗口,都是在动态裁剪出需要的信息 不管是RNN还是transformer都是在表达一个决策的过程,效率越高,越容易使用现...
C++ SIMD
The support for these instructions is wide but not universal. Both Intel and AMD support the compatible version of FMA, called FMA 3, in their CPUs released since 2012-2013. See hardware support section for more info. Another caveat, the latency of FMA is not ...
Open GPGPU
Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, developed with Chisel HDL rvgpu https://gitee.com/rvgpu Vortex https://github.com/vortexgpgpu/vortex https://github.com/vortexgpgpu/vortex_tutorials https://github.com/cupb...
CUDA指令和架构
A100显卡上的tensorcore有自己的私有寄存器吗,微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.pdf https://zhuanlan.zhihu.com/p/166180054 https://www.tinyedi.com/cuda_learning/#pipeline https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html https://zhu...
SIMT With Vector
DMA 2D算力的表达和设计 微架构和ISA的配合,软件控制流水线,硬件hzd检查简单高效 GS和Cache系统的设计 左右支的复用 RO WO 存储类型的利用 [](SIMT With Vector/sfeimage-png.png)
Cuda Pipeline 同步机制
pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_shared_state的模板参数也仅仅是描述pipeline会被共享的范围,和barrier类似. pipeline_shared_state需要在共享的内存区域创建 thread_scope的pipeline是性能最优秀的, 它不使用任何共享资源, 用cuda::pipeline<cuda::thread_scope_thre...
Cuda Tensor Core
要保持张量核心持续运行并不容易。 研究人员发现GPU硬件具有一些特性,对于保持矩阵乘法的运行非常重要: WGMMA指令虽然是必要的,但使用起来颇为麻烦。 共享内存的速度并不如预期的快,使用时还需格外注意。 生成地址的成本较高。 保持高占用率对于提升性能是有益的,寄存器至关重要 早期GPU中的张量核心指令如wmma.mma.sync和mma.sync,要求SM一个子单元内的32个线程的一个warp同步传输数据块至张量核心并等待结果。 wgmma.mma_async指令则不同。它允许128个连续线程跨SM所有子单元...
边缘视觉的软件/硬件方案
软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线, CuPBoP , Vortex Open GPGPU Triton https://openai.com/research/triton Halide Openxla https://github.com/openxla/xla UXL Group 的开发工作主要集中在英特尔OneAPI的软件工具包上。OneAPI 基于名为 SYCL 的早期框架(SYCL...
主流AI加速大芯片
NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并声称其在AI大语言模型(LLM)推理性能方面击败了NVIDIA最新的B200 GPU,AI性能达到了H100的20倍。 Google TPU Sambanova SN40L是第三代芯片(加了HBM)。**前两代芯片依靠了Dataflow的Spatial编程特点,降低了对DRAM高带宽的需求,走了大容量的DDR路线。**而第三代芯片,是在此基础上,又加入了64G的HBM,既要带宽又...
Triton
高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast code at higher productivity than CUDA, but also with higher flexibility than other existing DSLs. https://github.com/openai/triton https://triton-lang.org/main/inde...
Kimi之长文本
营销 月之暗面的目标是C端,为了让C端用户能够理解“长文本”这个技术名词,杨植麟用了更形象的比喻“支持更长的上下文”意味着大模型拥有更大的“内存”。这个世界已经被计算机、手机教育过了,每个普通人都有一个“简单粗暴”的认知,“内存大”就意味着这个手机或电脑配置更高、性能更牛、价格也更贵。 一波漂亮的宣传,在“卷评测分数”的大模型界轻松地赢得了普通用户的心。 在后续的重要宣发中,月之暗面不断重复kimi的长文本能力,创始人杨植麟也在采访中强调“为什么长文本是登月第一步?它很本质。它是新的计算机内存。” 技术 学界把增加...
2D Transformer
2D Transformer是一种基于Transformer架构的神经网络,专门用于处理二维数据,如图像。Transformer最初是在自然语言处理(NLP)领域提出的,用于处理序列数据。然而,由于其强大的自注意力机制(Self-Attention Mechanism),Transformer架构已经被扩展到了计算机视觉和其他领域。以下是2D Transformer的一些主流技术和方法: ViT (Vision Transformer): ViT是Google Research提出的一种将Transforme...
einsum
两个基本概念 自由索引(Free indices)和求和索引(Summation indices): 自由索引,出现在箭头右边的索引,比如上面的例子就是 i 和 j; 求和索引,只出现在箭头左边的索引,表示中间计算结果需要这个维度上求和之后才能得到输出,比如上面的例子就是 k; 三条基本规则 规则一,equation 箭头左边,在不同输入之间重复出现的索引表示,把输入张量沿着该维度做乘法操作,比如还是以上面矩阵乘法为例, "ik,kj->ij",k 在输入中重复出现,所以就是把 a 和 b 沿着 k 这个维度...
Dynamic Graph Multi Processor 架构
背景 Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。 「干净数据+大模型」和「脏数据+大模型」的效果,不会有太大差异。 Etched团队表示,H100有800亿个晶体管,却只有3.3%用于矩阵乘法,这种大模型推理时最常见的运算。只支持Tranformer的Sohu芯片FLOPS有效利用率超过90%(GPU大约是30%) 在前Scaling Law时代,我们强调的是Scale Up,即在数据压缩后争取模型智能的上限;在后Scaling Law时代,需...
RAM
DRAM 电容 带宽不是很高 需要刷新,会有颠簸 SRAM 面积和功耗不能和工艺平行 类型 Cpu register Flip Flops 每个bit都有一读一写 L1/L2 SRAM 6个晶体管,一般最多每个bank一读一写 L3/L4 eDRAM/GCRAM 4晶体管/电容 读写速度明显降低,也会有使用上的问题