Recently Updated Pages
Sync And Async
面临的问题 多种类型的硬件单元需要进行同步 不确定的循环次数 N to N的同步需求 无缝的同步,无缝的并行 频繁的同步需求,频繁的状态pulling,低latency 灵活的抽象适应所有的同...
GMP
背景 适应未来的AI计算需求 存储足够量的权重,但是明显的热点内容访问 强动态性,大范围、多次的随机动态访问 节能、低带宽需求,高效率数据流 低延迟 软件定义硬件,硬件尽量简单、透明、...
架构_微架构
架构/微架构 设计 标量寄存器和向量寄存器统一,支持自动进行转换 异步单元(SP-PU-L1-DMA)之间都采用异步机制,依赖转移到异步目标 统一的同步机制 静态分配同步资源 原生软硬件支持...
Dynamic Graph Multi Processor 架构
背景 Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。 「干净数据+大模型」和「脏数据+大模型」的效果,不会有太大差异。 Etc...
AI加速芯片上的2D单元
卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel 不同...
二值 二进制 Binary 神经网络算法
背景 FPGA的基本单元是LUT(查找表),如果把LUT看成一种逻辑运算单元 查找表的真值表可以表示静态权重 查找表的部份输入表示动态权重 FPGA的可重构特性,相对于AI处理器 可以...
先量化 再训练
量化主流的LLM到Binary Lut可以进行编码压缩,降低存储需求 实际数据touch不到的选择项可以被去除 调整顺序,编码,进行无损Lut表压缩 原生的训练Bianry模型 非梯...
硬件开发及仿真工具
LogicSIM生成RTL 时间定义只对reg有作用 同一时间reg只能被一个信号写 logic数据要存到reg才能继续被下一次使用 reg只有在clk(统一的时钟)的上升沿才会被触发写 lo...
主流推理小芯片
NVIDIA Jetson Orin HAILO Hailo-8 15 等等 domain-specific-dataflow-processing 据悉,它能够在功耗低于5W的情况下...
电路(硬件微架构)的难点和优势
难点、不适合 难以做复杂的算法(调度、分析、统计) 难以做逻辑深度比较深的计算 latency的长和不确定,模块间的时间不确定性 需要大量实现“异步”逻辑 消耗大量的面积 需要很大的b...
主流AI加速大芯片
NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并声称其在AI大语言模型(LLM)推理性能方面击败了NVI...
SIMT With Vector
DMA 2D算力的表达和设计 微架构和ISA的配合,软件控制流水线,硬件hzd检查简单高效 GS和Cache系统的设计 左右支的复用 RO WO 存储类型的利用 [![image.pn...
Reduce的并行加速
CUDA 1. 采用Divergence的支持和Block同步来支持 2. 其他的深度优化:https://developer.download.nvidia.com/assets/cuda/...
Open GPGPU
Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, developed...
Cuda Tensor Core
要保持张量核心持续运行并不容易。 研究人员发现GPU硬件具有一些特性,对于保持矩阵乘法的运行非常重要: WGMMA指令虽然是必要的,但使用起来颇为麻烦。 共享内存的速度并不如预期的快,使用时还...
LLM时代AI加速芯片面临的挑战
算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等: Deepse...
CUDA指令和架构
A100显卡上的tensorcore有自己的私有寄存器吗,微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.pdf ...
Cuda Pipeline 同步机制
pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_sha...
AI计算需求的抽象
算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM => Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : Reduce ...
AI加速芯片架构的动态性支持讨论
动态性的级别划分 数据内容不同动态 算子数据的尺寸动态 大部分非GPGPU的DSA架构都支持得不好,有各种问题 同步开销大,同步资源管理难,存储资源浪费,程序代码大 等问题 不同的数据地...