Recently Updated Pages

Sync And Async

AI加速芯片 GMP

面临的问题多种类型的硬件单元需要进行同步不确定的循环次数 N to N的同步需求无缝的同步，无缝的并行频繁的同步需求，频繁的状态pulling，低latency 灵活的抽象适应所有的同...

Updated 3 days ago by Colin

GMP

AI加速芯片 GMP

背景适应未来的AI计算需求存储足够量的权重，但是明显的热点内容访问强动态性，大范围、多次的随机动态访问节能、低带宽需求，高效率数据流低延迟软件定义硬件，硬件尽量简单、透明、...

Updated 3 days ago by Colin

架构_微架构

AI加速芯片 GMP

架构/微架构设计标量寄存器和向量寄存器统一，支持自动进行转换异步单元（SP-PU-L1-DMA）之间都采用异步机制，依赖转移到异步目标统一的同步机制静态分配同步资源原生软硬件支持...

Updated 3 days ago by Colin

Dynamic Graph Multi Processor 架构

AI加速芯片 GMP

背景 Etched提出，GPU在过去四年间效率并没有变得更好，只是变得更大了：芯片每平方毫米的的TFLOPS几乎持平。「干净数据+大模型」和「脏数据+大模型」的效果，不会有太大差异。 Etc...

Updated 3 days ago by Colin

AI加速芯片上的2D单元

AI加速芯片 GMP

卷积天然的数据复用度是Dot的9倍，对于芯片的压力更小算力缩放是一个非常重要的问题，涉及架构各代之间的稳定性，保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel 不同...

Updated 3 days ago by Colin

二值二进制 Binary 神经网络算法

AI加速芯片 Binary AI

背景 FPGA的基本单元是LUT(查找表)，如果把LUT看成一种逻辑运算单元查找表的真值表可以表示静态权重查找表的部份输入表示动态权重 FPGA的可重构特性，相对于AI处理器可以...

Updated 3 days ago by Colin

先量化再训练

AI加速芯片 Binary AI

量化主流的LLM到Binary Lut可以进行编码压缩，降低存储需求实际数据touch不到的选择项可以被去除调整顺序，编码，进行无损Lut表压缩原生的训练Bianry模型非梯...

Updated 3 days ago by Colin

硬件开发及仿真工具

AI加速芯片

LogicSIM生成RTL 时间定义只对reg有作用同一时间reg只能被一个信号写 logic数据要存到reg才能继续被下一次使用 reg只有在clk（统一的时钟）的上升沿才会被触发写 lo...

Updated 3 days ago by Colin

主流推理小芯片

AI加速芯片

NVIDIA Jetson Orin HAILO Hailo-8 15 等等 domain-specific-dataflow-processing 据悉，它能够在功耗低于5W的情况下...

Updated 3 days ago by Colin

电路（硬件微架构）的难点和优势

AI加速芯片

难点、不适合难以做复杂的算法（调度、分析、统计）难以做逻辑深度比较深的计算 latency的长和不确定，模块间的时间不确定性需要大量实现“异步”逻辑消耗大量的面积需要很大的b...

Updated 3 days ago by Colin

主流AI加速大芯片

AI加速芯片

NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”，并声称其在AI大语言模型（LLM）推理性能方面击败了NVI...

Updated 3 days ago by Colin

SIMT With Vector

AI加速芯片

DMA 2D算力的表达和设计微架构和ISA的配合，软件控制流水线，硬件hzd检查简单高效 GS和Cache系统的设计左右支的复用 RO WO 存储类型的利用 [![image.pn...

Updated 3 days ago by Colin

Reduce的并行加速

AI加速芯片

CUDA 1. 采用Divergence的支持和Block同步来支持 2. 其他的深度优化：https://developer.download.nvidia.com/assets/cuda/...

Updated 3 days ago by Colin

Open GPGPU

AI加速芯片

Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, developed...

Updated 3 days ago by Colin

Cuda Tensor Core

AI加速芯片

要保持张量核心持续运行并不容易。研究人员发现GPU硬件具有一些特性，对于保持矩阵乘法的运行非常重要： WGMMA指令虽然是必要的，但使用起来颇为麻烦。共享内存的速度并不如预期的快，使用时还...

Updated 3 days ago by Colin

LLM时代AI加速芯片面临的挑战

AI加速芯片

算法需求普遍使用MOE架构降低算力需求高度定制化的集成度高的大算子定制化的核心Attention加速算子：FlashAttention KVcache的压缩、加速等： Deepse...

Updated 3 days ago by Colin

CUDA指令和架构

AI加速芯片

A100显卡上的tensorcore有自己的私有寄存器吗，微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.pdf ...

Updated 3 days ago by Colin

Cuda Pipeline 同步机制

AI加速芯片

pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_sha...

Updated 3 days ago by Colin

AI计算需求的抽象

AI加速芯片

算子角度信息维度映射，信息过滤，信息选择：Dot / GEMM => Join+Reduce 激活： ElementWise Broadcast 统计、动态选择、排序： Reduce ...

Updated 3 days ago by Colin

AI加速芯片架构的动态性支持讨论

AI加速芯片

动态性的级别划分数据内容不同动态算子数据的尺寸动态大部分非GPGPU的DSA架构都支持得不好，有各种问题同步开销大，同步资源管理难，存储资源浪费，程序代码大等问题不同的数据地...

Updated 3 days ago by Colin

Recently Updated Pages

Sync And Async

GMP

架构_微架构

Dynamic Graph Multi Processor 架构

AI加速芯片上的2D单元

二值 二进制 Binary 神经网络算法

先量化 再训练

硬件开发及仿真工具

主流推理小芯片

电路（硬件微架构）的难点和优势

主流AI加速大芯片

SIMT With Vector

Reduce的并行加速

Open GPGPU

Cuda Tensor Core

LLM时代AI加速芯片面临的挑战

CUDA指令和架构

Cuda Pipeline 同步机制

AI计算需求的抽象

AI加速芯片架构的动态性支持讨论

二值二进制 Binary 神经网络算法

先量化再训练