Skip to main content

AI加速芯片


C++ SIMD

The support for these instructions is wide but not universal. Both Intel and AMD support thecompa...

Open GPGPU

Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, develope...

CUDA指令和架构

A100显卡上的tensorcore有自己的私有寄存器吗,微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.p...

SIMT With Vector

DMA 2D算力的表达和设计 微架构和ISA的配合,软件控制流水线,硬件hzd检查简单高效 GS和Cache系统的设计 左右支的复用 RO WO 存储类型的利用

Cuda Pipeline 同步机制

pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_...

Cuda Tensor Core

要保持张量核心持续运行并不容易。 研究人员发现GPU硬件具有一些特性,对于保持矩阵乘法的运行非常重要: WGMMA指令虽然是必要的,但使用起来颇为麻烦。 共享内存的速度并不...

边缘视觉的软件/硬件方案

软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线, CuPBoP  ,  Vortex Open GPGPU ...

主流AI加速大芯片

NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并声称其在AI大语言模型(LLM)推理性能方面...

Triton

高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast cod...

Dynamic Graph Multi Processor 架构

背景 Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。 「干净数据+大模型」和「脏数据+大模型」的效果,不会有太大差异。 ...

Sync And Async

面临的问题 多种类型的硬件单元需要进行同步 不确定的循环次数 N to N的同步需求 无缝的同步,无缝的并行 频繁的同步需求,频繁的状态pulling,低latency 灵活的抽...

硬件开发及仿真工具

LogicSIM生成RTL 时间定义只对reg有作用 同一时间reg只能被一个信号写 logic数据要存到reg才能继续被下一次使用 reg只有在clk(统一的时钟)的上升沿才会被触...

AI加速芯片架构的动态性支持讨论

动态性的级别划分 数据内容不同动态 算子数据的尺寸动态 大部分非GPGPU的DSA架构都支持得不好,有各种问题 同步开销大,同步资源管理难,存储资源浪费,程序代码大  等问题 ...

主流推理小芯片

NVIDIA Jetson Orin HAILO Hailo-8 15 等等  domain-specific-dataflow-processing 据悉,它能够在功耗...

AI加速芯片上的2D单元

卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...

Reduce的并行加速

CUDA 1. 采用Divergence的支持和Block同步来支持 2. 其他的深度优化:https://developer.download.nvidia.com/assets/cu...

软件框架

LLM时代AI加速芯片面临的挑战

算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等...

仿真建模

AI计算需求的抽象

算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM  =>  Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : R...

GMP

目标 软硬件结合 大量依靠软件优化,发挥最大的物理效率,同工艺下架构效率达2倍 算法和硬件协同优化,同模型精度条件下效率达4倍 DRAM或者多机的不确定数据延迟直接整合到...

二值 二进制 Binary 神经网络算法

背景FPGA的基本单元是LUT(查找表),如果把LUT看成一种逻辑运算单元查找表的真值表可以表示静态权重查找表的部份输入表示动态权重FPGA的可重构特性,相对于AI处理器可以把部份或者全部的动态...