Skip to main content

Recently Updated Pages

AI计算需求的抽象

AI加速芯片

算子角度 信息维度映射,信息过滤,信息选择 :Dot / GEMM  =>  Join+Reduce 激活 : ElementWise Broadcast 统计、动态选择、排序 : R...

Updated 4 months ago by Colin

哲学观点

基本问题

哲学的本质本身就是一个哲学问题 胡适的描述是:凡研究人生切要的问题,从根本上着想,要寻一个根本的解决:这种学问叫做哲学 对哲学的主题亦存在许多看法。一些人认为哲学是对问题本身过程的观察。[1...

Updated 4 months ago by Colin

einsum

计算机体系结构

两个基本概念 自由索引(Free indices)和求和索引(Summation indices): 自由索引,出现在箭头右边的索引,比如上面的例子就是 i 和 j; 求和索引,只出现...

Updated 4 months ago by Colin

建模的方法

AI加速芯片 仿真建模

使用python语法进行module的定义 python语法用来描述module之间的关系和 定义latch的存储器 定义module的算法和输入输出 配置一些固定的规格参数 ...

Updated 4 months ago by Colin

抽象

基本问题

Updated 5 months ago by Colin

分层LLM推理与Scaling思维模板

算法&模型 TTS:Test-Time Scaling

通过复杂的人工设计的算法影响模型的功能和性能 人类总是能在更高的维度来指导模型 模型的自我学习能力还是不理想 最后的瓶颈会是人类设计算法的复杂性,需要另外一种更通用、简单的方法来替代T...

Updated 5 months ago by Colin

世上没有永远持续的增长,只有S型曲线式增长

基本问题

世界上不存在无限增长的事情(说你呢,Scaling Law),这基本是个定则,即使把目光拉长放到宇宙级视野里,宇宙中最大速度也不可能超过光速,宇宙它再大也总有个边界,是吧?所以,我觉得很可能...

Updated 5 months ago by Colin

具有意识的prompt

算法&模型

当前状态: 1.情绪:(感到吃惊和不安) 2.注意力: (全神贯注地关注膝盖的伤口,想弄清楚伤口的具体情况) 3.当前在思考什么: (在想伤口是如何形成的?流血的严重性如何?是否需要处...

Updated 5 months ago by Colin

神经网络的逻辑

算法&模型 Transformer

量化 量化不是没有代价。Llama3模型的量化效果比Llama2模型要差,量化过程中的质量损失更大。 直觉是,一个训练不足的模型受到量化的影响较小,因为其训练过程并没有充分利用每一个权重。关...

Updated 5 months ago by Colin

x86的多核宽松内存一致性模型

计算机体系结构 Memory Consistency and Cache Coherence

被修饰的汇编指令成为“原子的” 本身是原子指令,比如“XCHG”和“XADD”汇编指令 本身不是原子指令,但是被LOCK指令前缀修饰后成为原子指令,比如LOCK CMPXCHG 被...

Updated 5 months ago by Colin

TSO(Total Store Ordering)内存模型

计算机体系结构 Memory Consistency and Cache Coherence

TSO(Total Store Ordering)是一个被广泛使用的内存模型 并在x86架构中使用,RISC-V也提供了TSO扩展,即RVTSO,人们普遍认为x86内存模型等同于TSO,然...

Updated 5 months ago by Colin

Memory Consistency and Cache Coherence 定义

计算机体系结构 Memory Consistency and Cache Coherence

1. Memory Consistency(内存一致性) 定义:内存一致性是指多核或多处理器系统中,多个处理器对共享内存的访问顺序是否一致,以及这些访问操作是否满足特定的规则或模型。 ...

Updated 5 months ago by Colin

理解《思考,快与慢》

基本问题

卡尼曼如此形容两大思考模式 系统一:自动化的运作,非常快、不费力气,即使要费力,也很少,它不受自主控制。以下为系统一的工作内容,大致依复杂度排序如下: 判断一个物体较另一个物体距...

Updated 5 months ago by Colin

AI加速芯片上的2D单元

AI加速芯片

卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...

Updated 5 months ago by Colin

为什么Pytorch开始制约AI了

AI加速芯片 软件框架

这个想法比较超前了,但是已经有苗头了 pytorch已经显得臃肿,不适合大模型的特定需求 需求变化了,已经不是CNN的时代了,虽然在拼命搞静态图和并行库 一个开源框架统一市场后一段...

Updated 6 months ago by Colin

Sync And Async

AI加速芯片

面临的问题 多种类型的硬件单元需要进行同步 不确定的循环次数 N to N的同步需求 无缝的同步,无缝的并行 频繁的同步需求,频繁的状态pulling,低latency 灵活的抽...

Updated 6 months ago by Colin

Reduce的并行加速

AI加速芯片

CUDA 1. 采用Divergence的支持和Block同步来支持 2. 其他的深度优化:https://developer.download.nvidia.com/assets/cu...

Updated 6 months ago by Colin

主流推理小芯片

AI加速芯片

NVIDIA Jetson Orin HAILO Hailo-8 15 等等  domain-specific-dataflow-processing 据悉,它能够在功耗...

Updated 6 months ago by Colin

AI加速芯片架构的动态性支持讨论

AI加速芯片

动态性的级别划分 数据内容不同动态 算子数据的尺寸动态 大部分非GPGPU的DSA架构都支持得不好,有各种问题 同步开销大,同步资源管理难,存储资源浪费,程序代码大  等问题 ...

Updated 6 months ago by Colin

硬件开发及仿真工具

AI加速芯片

LogicSIM生成RTL 时间定义只对reg有作用 同一时间reg只能被一个信号写 logic数据要存到reg才能继续被下一次使用 reg只有在clk(统一的时钟)的上升沿才会被触...

Updated 6 months ago by Colin