Skip to main content

GMP

Sync And Async

面临的问题 多种类型的硬件单元需要进行同步 不确定的循环次数 N to N的同步需求 无缝的同步,无缝的并行 频繁的同步需求,频繁的状态pulling,低latency 灵活的抽象适应所有的同...

AI加速芯片上的2D单元

卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel 不同...

GMP

背景 适应未来的AI计算需求 存储足够量的权重,但是明显的热点内容访问 强动态性,大范围、多次的随机动态访问 节能、低带宽需求,高效率数据流 低延迟 软件定义硬件,硬件尽量简单、透明、...

架构/微架构

设计 标量寄存器和向量寄存器统一,支持自动进行转换 异步单元(SP-PU-L1-DMA)之间都采用异步机制,依赖转移到异步目标 统一的同步机制 静态分配同步资源 原生软硬件支持...

架构_微架构

架构/微架构 设计 标量寄存器和向量寄存器统一,支持自动进行转换 异步单元(SP-PU-L1-DMA)之间都采用异步机制,依赖转移到异步目标 统一的同步机制 静态分配同步资源 原生软硬件支持...

算力单元

算力单元详细设计 把 [[Pipe]] 第 6 节 §208 的算力单元抽象展开到 RTL 起手前。每个计算实例 = 一条 engine pipe 实例。 0. 与 DMA 的同构关系 算力单元...

DynamicGraphMultiProcessor架构

Dynamic Graph Multi Processor 架构 背景 Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。 「干净...

微架构文档规范

适用于 design/ 下所有微架构 .md 文档。参考实现:[[LLC]] + LLC.pipeline.html。 0. 定位 微架构文档是人面向 RTL / [[logix]] 模型实现...