Skip to main content

Recently Updated Pages

主流推理小芯片

AI加速芯片

NVIDIA Jetson Orin HAILO Hailo-8 15 等等 domain-specific-dataflow-processing 据悉,它能够在功耗低于5W的情况下...

Updated 1 month ago by Colin

电路(硬件微架构)的难点和优势

AI加速芯片

难点、不适合 难以做复杂的算法(调度、分析、统计) 难以做逻辑深度比较深的计算 latency的长和不确定,模块间的时间不确定性 需要大量实现“异步”逻辑 消耗大量的面积 需要很大的b...

Updated 1 month ago by Colin

主流AI加速大芯片

AI加速芯片

NVIDIA Sohu 芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并声称其在AI大语言模型(LLM)推理性能方面击败了NVI...

Updated 1 month ago by Colin

SIMT With Vector

AI加速芯片

DMA 2D算力的表达和设计 微架构和ISA的配合,软件控制流水线,硬件hzd检查简单高效 GS和Cache系统的设计 左右支的复用 RO WO 存储类型的利用 [![image.pn...

Updated 1 month ago by Colin

Reduce的并行加速

AI加速芯片

CUDA 1. 采用Divergence的支持和Block同步来支持 2. 其他的深度优化:https://developer.download.nvidia.com/assets/cuda/...

Updated 1 month ago by Colin

Open GPGPU

AI加速芯片

Ventus GitHub - THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, developed...

Updated 1 month ago by Colin

Cuda Tensor Core

AI加速芯片

要保持张量核心持续运行并不容易。 研究人员发现GPU硬件具有一些特性,对于保持矩阵乘法的运行非常重要: WGMMA指令虽然是必要的,但使用起来颇为麻烦。 共享内存的速度并不如预期的快,使用时还...

Updated 1 month ago by Colin

LLM时代AI加速芯片面临的挑战

AI加速芯片

算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等: Deepse...

Updated 1 month ago by Colin

CUDA指令和架构

AI加速芯片

A100显卡上的tensorcore有自己的私有寄存器吗,微架构探索 https://zhuanlan.zhihu.com/p/620257581 乘影GPGPU架构文档手册v2.01.pdf ...

Updated 1 month ago by Colin

Cuda Pipeline 同步机制

AI加速芯片

pipeline 它实现上是一个proxy pattern, cuda::pipeline是每个thread访问pipeline_shared_state的proxy pipeline_sha...

Updated 1 month ago by Colin

AI计算需求的抽象

AI加速芯片

算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM => Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : Reduce ...

Updated 1 month ago by Colin

AI加速芯片架构的动态性支持讨论

AI加速芯片

动态性的级别划分 数据内容不同动态 算子数据的尺寸动态 大部分非GPGPU的DSA架构都支持得不好,有各种问题 同步开销大,同步资源管理难,存储资源浪费,程序代码大 等问题 不同的数据地...

Updated 1 month ago by Colin

通用的抽象

基本问题

背景、需求 自动根据输入信息进行结构化建模 让AI进行一种更通用,哲学上完备的方法,类似于,面向对象对编程技术的抽象 自然语言等抽象概念的结构化 通用抽象引擎, 通用NP问题解决 通用基础计算...

Updated 1 month ago by Colin

C++ SIMD

AI加速芯片

The support for these instructions is wide but not universal. Both Intel and AMD support the comp...

Updated 1 month ago by Colin

无所畏惧

基本问题

无所畏惧、没有牵挂、不再害怕 这个可能是人生追求的最终形态 不管是通过和自己和解,还是世界和你和解,最终的目的总是“和解“ 大脑的本能,不能克服的本能,就是根据当前的所有状态,决定下一步的...

Updated 2 months ago by Colin

卷积计算的测试

算法&模型 大模型评测

下面这个卷积网络,的算力需求大概是多少 Mops , 权重是多少K 个 注意 stride , pooling 以及 深度可分离卷积 的参数 请直接输出一个表格, 输入是 16000...

Updated 3 months ago by Colin

Theory of Space

基本问题

研究人员将 Theory of Space 定义为三个紧密耦合的核心能力: 构建(Construct):在部分可观测的迷雾中主动迈出脚步,收集局部观察,并在内部表征中拼凑出一张全局一致...

Updated 3 months ago by Colin

视觉就应该是卷积

算法&模型

先说观点,当前所有的科研人员都研究Transformer去了,但是卷积才是视觉的最高效的特征提取(编码)算法。

Updated 4 months ago by Colin

AI的效果悖论/骗局

基本问题

现象 看起来现在的大模型已经无所不能,LLM的语言能力,nano banana的图像,Sora的视频等等 能生成几乎是任意的数字内容,其实在早几年的CV(卷积网络)时代就已经有过一次惊艳了。...

Updated 4 months ago by Colin

提示词-prompt-自然语言接口

算法&模型

虽然我认为研究LLM心理学是没有意义的行为,但是更好得让工具为你服务是我的目的 prompt 最好是正面的,不要通过否定的方式来提示,而是采用直接的表达方式 尽量准确,详细得描述要求,举...

Updated 4 months ago by Colin