Search for {created_by:colin} {type:page}

无监督训练

算法&模型

统计模型 rank_tree表达了一短句子的逻辑分割，一段句子的分割，语意的组合，是抽象的一种，两个不一样的表示表达的是同一个语义怎么办？腿短的是狗，腿长的也是狗，有些逻辑不是组合能表达的怎么表达白猫黑猫都是猫的逻辑？抽象的标准统计的历史无矛盾（前后言行一致），前后表达没有矛盾，自洽统计的优秀（合理的抽象），抽象要有代表性，有共性而不是专用相互之间有逻辑关系，自洽充分抽象，孤立的比较不合理能抽象所有的语意，包括各种逻辑输出抽象的分类的分数 class 128 x 128 x 128 ...

TTT - Learning to (Learn at Test Time)

算法&模型

研究人员设计了一类新的序列建模层，其中隐藏状态是模型，更新规则是自监督学习的一个步骤。由于更新测试序列上隐藏状态的过程，相当于在测试时训练模型，因此此类新层称为测试时训练（TTT）层。为了在长上下文中既保持效率，又具有表达能力，需要一个更好的「压缩启发式」（compression heuristic）方法。具体来说，就需要将数百万个token压缩成一个能有效捕捉其底层结构和关系的隐藏状态。Transformer的KV cache在长序列的时候非常低效，Manba的固定长度的中间状态在长序列的时候表达力不...

AI算法的里面的“乘法”

算法&模型

原理特征向量表达了一堆的对象的集合，平铺得组合在一起，没有层级结构向量内的每个对象都被量化后并且归一化多个乘法再累加组成了线性变换 Y = A X_1 + B X_2 + C X_3 + ... 线性变换表达了一个特征向量到另外一个特征的映射关系通过按照特征/向量进行统计和汇总的方法线性变换 8位足够满足人脑的实际精度需求乘法导致不归一乘法为了实现线性变换，为了对信号进行处理：信号通过权重进行选择加法为了统计神经元的内部状态是fp32，输入输出是int8 学习 => ...

模型能力的衡量标准--基础性能特征

算法&模型

动态性 Transformer的“动态性决策”体现 Attention 本质上是利用dot计算，进行动态对信息的选取和重组增加模型表达的非线性能力，利用有限的参数量表示（覆盖）更大的向量空间，提升表达效率 “动态选择”是提升算法效率的关键，类似于传统算法决策树的“剪支”，能有效的增大搜索空间而不大幅增大推理算力需求在现代的LLM发展中，越来越多的MoE（依赖TopK）、Token窗口，都是在动态裁剪出需要的信息不管是RNN还是transformer都是在表达一个决策的过程，效率越高，越容易使用现...

C++ SIMD

AI加速芯片

The support for these instructions is wide but not universal. Both Intel and AMD support the compatible version of FMA, called FMA 3, in their CPUs released since 2012-2013. See hardware support section for more info. Another caveat, the latency of FMA is not ...

Open GPGPU

AI加速芯片

Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, developed with Chisel HDL rvgpu https://gitee.com/rvgpu Vortex https://github.com/vortexgpgpu/vortex https://github.com/vortexgpgpu/vortex_tutorials https://github.com/cupb...

CUDA指令和架构

AI加速芯片

A100显卡上的tensorcore有自己的私有寄存器吗，微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.pdf https://zhuanlan.zhihu.com/p/166180054 https://www.tinyedi.com/cuda_learning/#pipeline https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html https://zhu...

SIMT With Vector

AI加速芯片

DMA 2D算力的表达和设计微架构和ISA的配合，软件控制流水线，硬件hzd检查简单高效 GS和Cache系统的设计左右支的复用 RO WO 存储类型的利用 [![image.png](SIMT With Vector/sfeimage-png.png)](SIMT With Vector/sfeimage-png.png)

Cuda Pipeline 同步机制

AI加速芯片

pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_shared_state的模板参数也仅仅是描述pipeline会被共享的范围,和barrier类似. pipeline_shared_state需要在共享的内存区域创建 thread_scope的pipeline是性能最优秀的, 它不使用任何共享资源, 用cuda::pipeline<cuda::thread_scope_thre...

Cuda Tensor Core

AI加速芯片

要保持张量核心持续运行并不容易。研究人员发现GPU硬件具有一些特性，对于保持矩阵乘法的运行非常重要： WGMMA指令虽然是必要的，但使用起来颇为麻烦。共享内存的速度并不如预期的快，使用时还需格外注意。生成地址的成本较高。保持高占用率对于提升性能是有益的，寄存器至关重要早期GPU中的张量核心指令如wmma.mma.sync和mma.sync，要求SM一个子单元内的32个线程的一个warp同步传输数据块至张量核心并等待结果。 wgmma.mma_async指令则不同。它允许128个连续线程跨SM所有子单元...

边缘视觉的软件/硬件方案

AI加速芯片

软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线， CuPBoP ， Vortex Open GPGPU Triton https://openai.com/research/triton Halide Openxla https://github.com/openxla/xla UXL Group 的开发工作主要集中在英特尔OneAPI的软件工具包上。OneAPI 基于名为 SYCL 的早期框架（SYCL...

主流AI加速大芯片

AI加速芯片

NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”，并声称其在AI大语言模型（LLM）推理性能方面击败了NVIDIA最新的B200 GPU，AI性能达到了H100的20倍。 Google TPU Sambanova SN40L是第三代芯片（加了HBM）。**前两代芯片依靠了Dataflow的Spatial编程特点，降低了对DRAM高带宽的需求，走了大容量的DDR路线。**而第三代芯片，是在此基础上，又加入了64G的HBM，既要带宽又...

Triton

AI加速芯片

高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast code at higher productivity than CUDA, but also with higher flexibility than other existing DSLs. https://github.com/openai/triton https://triton-lang.org/main/inde...

Kimi之长文本

算法&模型

营销月之暗面的目标是C端，为了让C端用户能够理解“长文本”这个技术名词，杨植麟用了更形象的比喻“支持更长的上下文”意味着大模型拥有更大的“内存”。这个世界已经被计算机、手机教育过了，每个普通人都有一个“简单粗暴”的认知，“内存大”就意味着这个手机或电脑配置更高、性能更牛、价格也更贵。一波漂亮的宣传，在“卷评测分数”的大模型界轻松地赢得了普通用户的心。在后续的重要宣发中，月之暗面不断重复kimi的长文本能力，创始人杨植麟也在采访中强调“为什么长文本是登月第一步？它很本质。它是新的计算机内存。” 技术学界把增加...

2D Transformer

算法&模型

2D Transformer是一种基于Transformer架构的神经网络，专门用于处理二维数据，如图像。Transformer最初是在自然语言处理（NLP）领域提出的，用于处理序列数据。然而，由于其强大的自注意力机制（Self-Attention Mechanism），Transformer架构已经被扩展到了计算机视觉和其他领域。以下是2D Transformer的一些主流技术和方法： ViT (Vision Transformer)： ViT是Google Research提出的一种将Transforme...

einsum

计算机体系结构

两个基本概念自由索引（Free indices）和求和索引（Summation indices）：自由索引，出现在箭头右边的索引，比如上面的例子就是 i 和 j；求和索引，只出现在箭头左边的索引，表示中间计算结果需要这个维度上求和之后才能得到输出，比如上面的例子就是 k；三条基本规则规则一，equation 箭头左边，在不同输入之间重复出现的索引表示，把输入张量沿着该维度做乘法操作，比如还是以上面矩阵乘法为例， "ik,kj->ij"，k 在输入中重复出现，所以就是把 a 和 b 沿着 k 这个维度...

Dynamic Graph Multi Processor 架构

AI加速芯片 GMP

背景 Etched提出，GPU在过去四年间效率并没有变得更好，只是变得更大了：芯片每平方毫米的的TFLOPS几乎持平。「干净数据+大模型」和「脏数据+大模型」的效果，不会有太大差异。 Etched团队表示，H100有800亿个晶体管，却只有3.3%用于矩阵乘法，这种大模型推理时最常见的运算。只支持Tranformer的Sohu芯片FLOPS有效利用率超过90%（GPU大约是30%）在前Scaling Law时代，我们强调的是Scale Up，即在数据压缩后争取模型智能的上限；在后Scaling Law时代，需...

RAM

计算机体系结构

DRAM 电容带宽不是很高需要刷新，会有颠簸 SRAM 面积和功耗不能和工艺平行类型 Cpu register Flip Flops 每个bit都有一读一写 L1/L2 SRAM 6个晶体管，一般最多每个bank一读一写 L3/L4 eDRAM/GCRAM 4晶体管/电容读写速度明显降低，也会有使用上的问题

Advanced Search

Search Terms

Content Type

Exact Matches

Tag Searches

Date Options

Search Results

159 total results found

无监督训练

TTT - Learning to (Learn at Test Time)

AI算法的里面的“乘法”

模型能力的衡量标准--基础性能特征

C++ SIMD

Open GPGPU

CUDA指令和架构

SIMT With Vector

Cuda Pipeline 同步机制

Cuda Tensor Core

边缘视觉的软件/硬件方案

主流AI加速大芯片

Triton

Kimi之长文本

2D Transformer

einsum

Dynamic Graph Multi Processor 架构

RAM

Updated after

Updated before

Created after

Created before