AI加速芯片

C++ SIMD

The support for these instructions is wide but not universal. Both Intel and AMD support thecompa...

Open GPGPU

Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, develope...

CUDA指令和架构

A100显卡上的tensorcore有自己的私有寄存器吗，微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.p...

SIMT With Vector

DMA 2D算力的表达和设计微架构和ISA的配合，软件控制流水线，硬件hzd检查简单高效 GS和Cache系统的设计左右支的复用 RO WO 存储类型的利用

Cuda Pipeline 同步机制

pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_...

Cuda Tensor Core

要保持张量核心持续运行并不容易。研究人员发现GPU硬件具有一些特性，对于保持矩阵乘法的运行非常重要： WGMMA指令虽然是必要的，但使用起来颇为麻烦。共享内存的速度并不...

边缘视觉的软件/硬件方案

软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线， CuPBoP ， Vortex Open GPGPU ...

主流AI加速大芯片

NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”，并声称其在AI大语言模型（LLM）推理性能方面...

Triton

高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast cod...

Sync And Async

面临的问题多种类型的硬件单元需要进行同步不确定的循环次数 N to N的同步需求无缝的同步，无缝的并行频繁的同步需求，频繁的状态pulling，低latency 灵活的抽...

硬件开发及仿真工具

LogicSIM生成RTL 时间定义只对reg有作用同一时间reg只能被一个信号写 logic数据要存到reg才能继续被下一次使用 reg只有在clk（统一的时钟）的上升沿才会被触...

AI加速芯片架构的动态性支持讨论

动态性的级别划分数据内容不同动态算子数据的尺寸动态大部分非GPGPU的DSA架构都支持得不好，有各种问题同步开销大，同步资源管理难，存储资源浪费，程序代码大等问题 ...

主流推理小芯片

NVIDIA Jetson Orin HAILO Hailo-8 15 等等 domain-specific-dataflow-processing 据悉，它能够在功耗...

AI加速芯片上的2D单元

卷积天然的数据复用度是Dot的9倍，对于芯片的压力更小算力缩放是一个非常重要的问题，涉及架构各代之间的稳定性，保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...

Reduce的并行加速

CUDA 1. 采用Divergence的支持和Block同步来支持 2. 其他的深度优化：https://developer.download.nvidia.com/assets/cu...

软件框架

为什么Pytorch开始制约AI了

这个想法比较超前了，但是已经有苗头了 pytorch已经显得臃肿，不适合大模型的特定需求需求变化了，已经不是CNN的时代了，虽然在拼命搞静态图和并行库一个开源框架统一市场后一段...

LLM时代AI加速芯片面临的挑战

算法需求普遍使用MOE架构降低算力需求高度定制化的集成度高的大算子定制化的核心Attention加速算子：FlashAttention KVcache的压缩、加速等...

仿真建模

建模的方法

使用python语法进行module的定义 python语法用来描述module之间的关系和定义latch的存储器定义module的算法和输入输出配置一些固定的规格参数 ...

AI计算需求的抽象

算子角度信息维度映射，信息过滤，信息选择：Dot / GEMM => Join+Reduce 激活： ElementWise Broadcast 统计、动态选择、排序： R...

GMP

Dynamic Graph Multi Processor 架构

背景 Etched提出，GPU在过去四年间效率并没有变得更好，只是变得更大了：芯片每平方毫米的的TFLOPS几乎持平。「干净数据+大模型」和「脏数据+大模型」的效果，不会有太大差异。 ...

GMP

背景适应未来的AI计算需求存储足够量的权重，但是明显的热点内容访问强动态性，大范围、多次的随机动态访问节能、低带宽需求，高效率数据流低延迟目标...

架构/微架构

设计标量寄存器和向量寄存器统一，支持自动进行转换异步单元（SP-PU-L1-DMA）之间都采用异步机制，依赖转移到异步目标统一的同步机制静态分配同步资源原生软硬件支持...

电路（硬件微架构）的难点和优势

难点、不适合难以做复杂的算法（调度、分析、统计）难以做逻辑深度比较深的计算 latency的长和不确定，模块间的时间不确定性需要大量实现“异步”逻辑消耗大量的面积 ...

Binary AI

二值二进制 Binary 神经网络算法

背景FPGA的基本单元是LUT(查找表)，如果把LUT看成一种逻辑运算单元查找表的真值表可以表示静态权重查找表的部份输入表示动态权重FPGA的可重构特性，相对于AI处理器可以把部份或者全部的动态...

先量化再训练

量化主流的LLM到Binary Lut可以进行编码压缩，降低存储需求实际数据touch不到的选择项可以被去除调整顺序，编码，进行无损Lut表压缩原生的训练Bia...

边缘推理芯片

主流的产品

高通® QCS6490 https://docs.radxa.com/dragon/q6a 全志 A733 SoC https://docs.radxa.com/cub...