Recently Updated Pages

架构_微架构

AI加速芯片 GMP

架构/微架构设计标量寄存器和向量寄存器统一，支持自动进行转换异步单元（SP-PU-L1-DMA）之间都采用异步机制，依赖转移到异步目标统一的同步机制静态分配同步资源原生软硬件支持...

Updated 3 months ago by Colin

AI加速芯片上的2D单元

AI加速芯片 GMP

卷积天然的数据复用度是Dot的9倍，对于芯片的压力更小算力缩放是一个非常重要的问题，涉及架构各代之间的稳定性，保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel 不同...

Updated 3 months ago by Colin

二值二进制 Binary 神经网络算法

AI加速芯片 Binary AI

背景 FPGA的基本单元是LUT(查找表)，如果把LUT看成一种逻辑运算单元查找表的真值表可以表示静态权重查找表的部份输入表示动态权重 FPGA的可重构特性，相对于AI处理器可以...

Updated 3 months ago by Colin

先量化再训练

AI加速芯片 Binary AI

量化主流的LLM到Binary Lut可以进行编码压缩，降低存储需求实际数据touch不到的选择项可以被去除调整顺序，编码，进行无损Lut表压缩原生的训练Bianry模型非梯...

Updated 3 months ago by Colin

硬件开发及仿真工具

AI加速芯片

LogicSIM生成RTL 时间定义只对reg有作用同一时间reg只能被一个信号写 logic数据要存到reg才能继续被下一次使用 reg只有在clk（统一的时钟）的上升沿才会被触发写 lo...

Updated 3 months ago by Colin

主流推理小芯片

AI加速芯片

NVIDIA Jetson Orin HAILO Hailo-8 15 等等 domain-specific-dataflow-processing 据悉，它能够在功耗低于5W的情况下...

Updated 3 months ago by Colin

电路（硬件微架构）的难点和优势

AI加速芯片

难点、不适合难以做复杂的算法（调度、分析、统计）难以做逻辑深度比较深的计算 latency的长和不确定，模块间的时间不确定性需要大量实现“异步”逻辑消耗大量的面积需要很大的b...

Updated 3 months ago by Colin

主流AI加速大芯片

AI加速芯片

NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”，并声称其在AI大语言模型（LLM）推理性能方面击败了NVI...

Updated 3 months ago by Colin

SIMT With Vector

AI加速芯片

DMA 2D算力的表达和设计微架构和ISA的配合，软件控制流水线，硬件hzd检查简单高效 GS和Cache系统的设计左右支的复用 RO WO 存储类型的利用 [![image.pn...

Updated 3 months ago by Colin

Reduce的并行加速

AI加速芯片

CUDA 1. 采用Divergence的支持和Block同步来支持 2. 其他的深度优化：https://developer.download.nvidia.com/assets/cuda/...

Updated 3 months ago by Colin

Open GPGPU

AI加速芯片

Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, developed...

Updated 3 months ago by Colin

Cuda Tensor Core

AI加速芯片

要保持张量核心持续运行并不容易。研究人员发现GPU硬件具有一些特性，对于保持矩阵乘法的运行非常重要： WGMMA指令虽然是必要的，但使用起来颇为麻烦。共享内存的速度并不如预期的快，使用时还...

Updated 3 months ago by Colin

LLM时代AI加速芯片面临的挑战

AI加速芯片

算法需求普遍使用MOE架构降低算力需求高度定制化的集成度高的大算子定制化的核心Attention加速算子：FlashAttention KVcache的压缩、加速等： Deepse...

Updated 3 months ago by Colin

CUDA指令和架构

AI加速芯片

A100显卡上的tensorcore有自己的私有寄存器吗，微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.pdf ...

Updated 3 months ago by Colin

Cuda Pipeline 同步机制

AI加速芯片

pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_sha...

Updated 3 months ago by Colin

AI计算需求的抽象

AI加速芯片

算子角度信息维度映射，信息过滤，信息选择：Dot / GEMM => Join+Reduce 激活： ElementWise Broadcast 统计、动态选择、排序： Reduce ...

Updated 3 months ago by Colin

AI加速芯片架构的动态性支持讨论

AI加速芯片

动态性的级别划分数据内容不同动态算子数据的尺寸动态大部分非GPGPU的DSA架构都支持得不好，有各种问题同步开销大，同步资源管理难，存储资源浪费，程序代码大等问题不同的数据地...

Updated 3 months ago by Colin

通用的抽象

基本问题

背景、需求自动根据输入信息进行结构化建模让AI进行一种更通用，哲学上完备的方法，类似于，面向对象对编程技术的抽象自然语言等抽象概念的结构化通用抽象引擎，通用NP问题解决通用基础计算...

Updated 3 months ago by Colin

C++ SIMD

AI加速芯片

The support for these instructions is wide but not universal. Both Intel and AMD support the comp...

Updated 3 months ago by Colin

无所畏惧

基本问题

无所畏惧、没有牵挂、不再害怕这个可能是人生追求的最终形态不管是通过和自己和解，还是世界和你和解，最终的目的总是“和解“ 大脑的本能，不能克服的本能，就是根据当前的所有状态，决定下一步的...

Updated 3 months ago by Colin

Recently Updated Pages

架构_微架构

AI加速芯片上的2D单元

二值 二进制 Binary 神经网络算法

先量化 再训练

硬件开发及仿真工具

主流推理小芯片

电路（硬件微架构）的难点和优势

主流AI加速大芯片

SIMT With Vector

Reduce的并行加速

Open GPGPU

Cuda Tensor Core

LLM时代AI加速芯片面临的挑战

CUDA指令和架构

Cuda Pipeline 同步机制

AI计算需求的抽象

AI加速芯片架构的动态性支持讨论

通用的抽象

C++ SIMD

无所畏惧

二值二进制 Binary 神经网络算法

先量化再训练