Skip to main content

Recently Updated Pages

RAM

AI加速芯片

DRAM 电容 带宽不是很高 需要刷新,会有颠簸 SRAM 面积和功耗不能和工艺平行 类型 Cpu register Flip Flops 每个bit都有一读一写 ...

Updated 4 hours ago by Colin

AI加速芯片上的2D单元

AI加速芯片

卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...

Updated 4 hours ago by Colin

主流推理小芯片

AI加速芯片

NVIDIA Jetson Orin HAILO Hailo-8 15 等等  domain-specific-dataflow-processing 据悉,它能够在功耗...

Updated 4 hours ago by Colin

AI加速芯片架构的动态性支持讨论

AI加速芯片

动态性的级别划分 数据内容不同动态 算子数据的尺寸动态 大部分非GPGPU的DSA架构都支持得不好,有各种问题 同步开销大,同步资源管理难,存储资源浪费,程序代码大  等问题 ...

Updated 4 hours ago by Colin

Cache写机制 Write-through与Write-back

AI加速芯片

Cache写机制分为write through和write back两种。Write-through: Write is done synchronously both to the cache...

Updated 4 hours ago by Colin

NoC

AI加速芯片

OpenSMART https://github.com/hyoukjun/OpenSMART/tree/master connect https://users.ece.cmu.edu/...

Updated 4 hours ago by Colin

硬件开发及仿真工具

AI加速芯片

LogicSIM生成RTL 时间定义只对reg有作用 同一时间reg只能被一个信号写 logic数据要存到reg才能继续被下一次使用 reg只有在clk(统一的时钟)的上升沿才会被触...

Updated 4 hours ago by Colin

Dynamic Graph Multi Processor 架构

AI加速芯片

背景 Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。 「干净数据+大模型」和「脏数据+大模型」的效果,不会有太大差异。 ...

Updated 4 hours ago by Colin

einsum

模型算法

两个基本概念 自由索引(Free indices)和求和索引(Summation indices): 自由索引,出现在箭头右边的索引,比如上面的例子就是 i 和 j; 求和索引,只出现...

Updated 4 hours ago by Colin

2D Transformer

模型算法

2D Transformer是一种基于Transformer架构的神经网络,专门用于处理二维数据,如图像。Transformer最初是在自然语言处理(NLP)领域提出的,用于处理序列数据。然而,...

Updated 4 hours ago by Colin

Kimi之长文本

模型算法

营销 月之暗面的目标是C端,为了让C端用户能够理解“长文本”这个技术名词,杨植麟用了更形象的比喻“支持更长的上下文”意味着大模型拥有更大的“内存”。这个世界已经被计算机、手机教育过了,每个普通...

Updated 4 hours ago by Colin

Triton

AI加速芯片

高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast cod...

Updated 4 hours ago by Colin

主流AI加速大芯片

AI加速芯片

NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并声称其在AI大语言模型(LLM)推理性能方面...

Updated 4 hours ago by Colin

边缘视觉的软件/硬件方案

AI加速芯片

软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线, CuPBoP  ,  Vortex Open GPGPU ...

Updated 4 hours ago by Colin

Cuda Tensor Core

AI加速芯片

要保持张量核心持续运行并不容易。 研究人员发现GPU硬件具有一些特性,对于保持矩阵乘法的运行非常重要: WGMMA指令虽然是必要的,但使用起来颇为麻烦。 共享内存的速度并不...

Updated 4 hours ago by Colin

Cuda Pipeline 同步机制

AI加速芯片

pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_...

Updated 4 hours ago by Colin

SIMT With Vector

AI加速芯片

DMA 2D算力的表达和设计 微架构和ISA的配合,软件控制流水线,硬件hzd检查简单高效 GS和Cache系统的设计 左右支的复用 RO WO 存储类型的利用

Updated 4 hours ago by Colin

CUDA指令和架构

AI加速芯片

A100显卡上的tensorcore有自己的私有寄存器吗,微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.p...

Updated 4 hours ago by Colin

Open GPGPU

AI加速芯片

Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, develope...

Updated 4 hours ago by Colin

C++ SIMD

AI加速芯片

The support for these instructions is wide but not universal. Both Intel and AMD support thecompa...

Updated 4 hours ago by Colin