Skip to main content
Advanced Search
Search Terms
Content Type

Exact Matches
Tag Searches
Date Options
Updated after
Updated before
Created after
Created before

Search Results

52 total results found

AI算法的里面的“乘法”

模型算法

原理 特征向量 表达了一堆的对象的集合,平铺得组合在一起,没有层级结构 向量内的每个对象都被量化后并且归一化 多个乘法再累加组成了线性变换 Y = A X_1 + B X_2 + C X_3 + ... 线性变换 表达了一个特征向量到另外一个特征的映射关系 通过按照特征/向量进行统计和汇总的方法 线性变换 8位足够满足人脑的实际精度需求 乘法 导致 不归一 乘法为了实现线性变换,为了对信号进行处理:信号通过权重进行选择 加法为了统计 神经元的内...

AI技术研究-衡量的标准

模型算法

动态性 Transformer的“动态性决策”体现 Attention 本质上是利用dot计算,进行动态对信息的选取和重组 “动态选择”是提升算法效率的关键,类似于传统算法决策树的“减支”,能有效的增大搜索空间而不大幅增大推理算力需求 不管是RNN还是transformer都是在表达一个决策的过程,效率越高,越容易使用现成的硬件加速,越容易被训练(梯度下降),最终的效果越好 CoT,全称Chain of Thought CoT是神经网络使用“语言”作为接口定义(对象的抽象)进行运算,进行...

C++ SIMD

AI加速芯片

The support for these instructions is wide but not universal. Both Intel and AMD support thecompatible version of FMA, called FMA 3, in their CPUs released since 2012-2013. See hardwaresupport section for more info.Another caveat, the latency of FMA is not gre...

Open GPGPU

AI加速芯片

Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, developed with Chisel HDL rvgpu https://gitee.com/rvgpu Vortex  https://github.com/vortexgpgpu/vortex https://github.com/vortexgpgpu/vortex_tutorials https://github....

CUDA指令和架构

AI加速芯片

A100显卡上的tensorcore有自己的私有寄存器吗,微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.pdf https://zhuanlan.zhihu.com/p/166180054 https://www.tinyedi.com/cuda_learning/#pipeline https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html http...

SIMT With Vector

AI加速芯片

DMA 2D算力的表达和设计 微架构和ISA的配合,软件控制流水线,硬件hzd检查简单高效 GS和Cache系统的设计 左右支的复用 RO WO 存储类型的利用

Cuda Pipeline 同步机制

AI加速芯片

pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_shared_state的模板参数也仅仅是描述pipeline会被共享的范围,和barrier类似. pipeline_shared_state需要在共享的内存区域创建 thread_scope的pipeline是性能最优秀的, 它不使用任何共享资源, 用cuda::pipeline<cuda::thread_scope...

Cuda Tensor Core

AI加速芯片

要保持张量核心持续运行并不容易。 研究人员发现GPU硬件具有一些特性,对于保持矩阵乘法的运行非常重要: WGMMA指令虽然是必要的,但使用起来颇为麻烦。 共享内存的速度并不如预期的快,使用时还需格外注意。 生成地址的成本较高。 保持高占用率对于提升性能是有益的,寄存器至关重要 早期GPU中的张量核心指令如wmma.mma.sync和mma.sync,要求SM一个子单元内的32个线程的一个warp同步传输数据块至张量核心并等待结果。 wgmma.mma_async...

边缘视觉的软件/硬件方案

AI加速芯片

软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线, CuPBoP  ,  Vortex Open GPGPU Triton  https://openai.com/research/triton Halide Openxla  https://github.com/openxla/xla UXL Group 的开发工作主要集中在英特尔OneAPI的软件工具包上。OneAPI 基于名为 SYCL 的早期框架(SYCL...

主流AI加速大芯片

AI加速芯片

NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并声称其在AI大语言模型(LLM)推理性能方面击败了NVIDIA最新的B200 GPU,AI性能达到了H100的20倍。 Google  TPU Sambanova SN40L是第三代芯片(加了HBM)。前两代芯片依靠了Dataflow的Spatial编程特点,降低了对DRAM高带宽的需求,走了大容量的DDR路线。而第三代芯片,是在此基础上,又加入了64G的HB...

Triton

AI加速芯片

高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast code at higher productivity than CUDA, but also with higher flexibility than other existing DSLs. https://github.com/openai/triton https://triton-lang.org/main/inde...

Kimi之长文本

模型算法

营销 月之暗面的目标是C端,为了让C端用户能够理解“长文本”这个技术名词,杨植麟用了更形象的比喻“支持更长的上下文”意味着大模型拥有更大的“内存”。这个世界已经被计算机、手机教育过了,每个普通人都有一个“简单粗暴”的认知,“内存大”就意味着这个手机或电脑配置更高、性能更牛、价格也更贵。一波漂亮的宣传,在“卷评测分数”的大模型界轻松地赢得了普通用户的心。在后续的重要宣发中,月之暗面不断重复kimi的长文本能力,创始人杨植麟也在采访中强调“为什么长文本是登月第一步?它很本质。它是新的计算机内存。” 技术 学界把增...

2D Transformer

模型算法

2D Transformer是一种基于Transformer架构的神经网络,专门用于处理二维数据,如图像。Transformer最初是在自然语言处理(NLP)领域提出的,用于处理序列数据。然而,由于其强大的自注意力机制(Self-Attention Mechanism),Transformer架构已经被扩展到了计算机视觉和其他领域。以下是2D Transformer的一些主流技术和方法: ViT (Vision Transformer): ViT是Google Research提出的一种将Trans...

einsum

模型算法

两个基本概念 自由索引(Free indices)和求和索引(Summation indices): 自由索引,出现在箭头右边的索引,比如上面的例子就是 i 和 j; 求和索引,只出现在箭头左边的索引,表示中间计算结果需要这个维度上求和之后才能得到输出,比如上面的例子就是 k; 三条基本规则 规则一,equation 箭头左边,在不同输入之间重复出现的索引表示,把输入张量沿着该维度做乘法操作,比如还是以上面矩阵乘法为例, "ik,kj->ij",k 在输入中重复出现,所以就是把 a 和 b 沿...

Dynamic Graph Multi Processor 架构

AI加速芯片

背景 Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。 「干净数据+大模型」和「脏数据+大模型」的效果,不会有太大差异。 Etched团队表示,H100有800亿个晶体管,却只有3.3%用于矩阵乘法,这种大模型推理时最常见的运算。只支持Tranformer的Sohu芯片FLOPS有效利用率超过90%(GPU大约是30%) 在前Scaling Law时代,我们强调的是Scale Up,即在数据压缩后争取模型智能的上限;在后Scaling La...

RAM

AI加速芯片

DRAM 电容 带宽不是很高 需要刷新,会有颠簸 SRAM 面积和功耗不能和工艺平行 类型 Cpu register Flip Flops 每个bit都有一读一写 L1/L2 SRAM  6个晶体管,一般最多每个bank一读一写 L3/L4  eDRAM/GCRAM   4晶体管/电容   读写速度明显降低,也会有使用上的问题

硬件开发及仿真工具

AI加速芯片

LogicSIM生成RTL 时间定义只对reg有作用 同一时间reg只能被一个信号写 logic数据要存到reg才能继续被下一次使用 reg只有在clk(统一的时钟)的上升沿才会被触发写 logic的一次执行不会跨越clk(统一的时钟)的上升沿 所有的latch简化为get上一个cycle的数据,set下一个数据,不用复杂的map和锁 module 定义一堆latch和logic的集合 throughput都是1 latency可以>1 CIRCT项目的软件栈 PyChi...

NoC

AI加速芯片

OpenSMART https://github.com/hyoukjun/OpenSMART/tree/master connect https://users.ece.cmu.edu/~mpapamic/connect/ https://github.com/crossroadsfpga/connect/tree/main Flexnoc is a commercial NoC generator by Arteris which generates a customizedtopology for...

Cache写机制 Write-through与Write-back

AI加速芯片

Cache写机制分为write through和write back两种。Write-through: Write is done synchronously both to the cache and to the backing store.Write-back (or Write-behind) : Writing is done only to the cache. A modified cache block is written back to the store, just before it is ...

AI加速芯片架构的动态性支持讨论

AI加速芯片

动态性的级别划分 数据内容不同动态 算子数据的尺寸动态 大部分非GPGPU的DSA架构都支持得不好,有各种问题 同步开销大,同步资源管理难,存储资源浪费,程序代码大  等问题 不同的数据地址的程序代码动态 通过条件执行、跳转执行支持的程序动态 GPGPU类支持 自动生成、调用不用的单元的代码动态 很少在加速卡上实现,大部分是CPU可以实现 不同架构对动态性支持的区别 SIMT类型的GPGPU 华为和寒武纪类的DSA NPU推理DSA 类似燧...