Skip to main content

Recently Updated Pages

RAM

AI加速芯片

DRAM 电容 带宽不是很高 需要刷新,会有颠簸 SRAM 面积和功耗不能和工艺平行 类型 Cpu register Flip Flops 每个bit都有一读一写 ...

Updated 12 hours ago by Colin

AI加速芯片上的2D单元

AI加速芯片

卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...

Updated 12 hours ago by Colin

主流推理小芯片

AI加速芯片

NVIDIA Jetson Orin HAILO Hailo-8 15 等等  domain-specific-dataflow-processing 据悉,它能够在功耗...

Updated 12 hours ago by Colin

AI加速芯片架构的动态性支持讨论

AI加速芯片

动态性的级别划分 数据内容不同动态 算子数据的尺寸动态 大部分非GPGPU的DSA架构都支持得不好,有各种问题 同步开销大,同步资源管理难,存储资源浪费,程序代码大  等问题 ...

Updated 12 hours ago by Colin

Cache写机制 Write-through与Write-back

AI加速芯片

Cache写机制分为write through和write back两种。Write-through: Write is done synchronously both to the cache...

Updated 12 hours ago by Colin

NoC

AI加速芯片

OpenSMART https://github.com/hyoukjun/OpenSMART/tree/master connect https://users.ece.cmu.edu/...

Updated 12 hours ago by Colin

硬件开发及仿真工具

AI加速芯片

LogicSIM生成RTL 时间定义只对reg有作用 同一时间reg只能被一个信号写 logic数据要存到reg才能继续被下一次使用 reg只有在clk(统一的时钟)的上升沿才会被触...

Updated 12 hours ago by Colin

Dynamic Graph Multi Processor 架构

AI加速芯片

背景 Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。 「干净数据+大模型」和「脏数据+大模型」的效果,不会有太大差异。 ...

Updated 12 hours ago by Colin

einsum

模型算法

两个基本概念 自由索引(Free indices)和求和索引(Summation indices): 自由索引,出现在箭头右边的索引,比如上面的例子就是 i 和 j; 求和索引,只出现...

Updated 12 hours ago by Colin

2D Transformer

模型算法

2D Transformer是一种基于Transformer架构的神经网络,专门用于处理二维数据,如图像。Transformer最初是在自然语言处理(NLP)领域提出的,用于处理序列数据。然而,...

Updated 12 hours ago by Colin

Kimi之长文本

模型算法

营销 月之暗面的目标是C端,为了让C端用户能够理解“长文本”这个技术名词,杨植麟用了更形象的比喻“支持更长的上下文”意味着大模型拥有更大的“内存”。这个世界已经被计算机、手机教育过了,每个普通...

Updated 12 hours ago by Colin

Triton

AI加速芯片

高层次Kernel开发语言Triton The aim of Triton is to provide an open-source environment to write fast cod...

Updated 12 hours ago by Colin

主流AI加速大芯片

AI加速芯片

NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并声称其在AI大语言模型(LLM)推理性能方面...

Updated 12 hours ago by Colin

边缘视觉的软件/硬件方案

AI加速芯片

软件 iree的路线 https://github.com/openxla/iree 兼容CUDA/OpenCL的路线, CuPBoP  ,  Vortex Open GPGPU ...

Updated 12 hours ago by Colin

Cuda Tensor Core

AI加速芯片

要保持张量核心持续运行并不容易。 研究人员发现GPU硬件具有一些特性,对于保持矩阵乘法的运行非常重要: WGMMA指令虽然是必要的,但使用起来颇为麻烦。 共享内存的速度并不...

Updated 12 hours ago by Colin

Cuda Pipeline 同步机制

AI加速芯片

pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_...

Updated 12 hours ago by Colin

SIMT With Vector

AI加速芯片

DMA 2D算力的表达和设计 微架构和ISA的配合,软件控制流水线,硬件hzd检查简单高效 GS和Cache系统的设计 左右支的复用 RO WO 存储类型的利用

Updated 12 hours ago by Colin

CUDA指令和架构

AI加速芯片

A100显卡上的tensorcore有自己的私有寄存器吗,微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.p...

Updated 12 hours ago by Colin

Open GPGPU

AI加速芯片

Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, develope...

Updated 12 hours ago by Colin

C++ SIMD

AI加速芯片

The support for these instructions is wide but not universal. Both Intel and AMD support thecompa...

Updated 12 hours ago by Colin