Recently Updated Pages
动态算法
Transformer类算法,依赖大维度的信息变换,相关性爆炸 也就是尺寸很大的矩阵乘法,虽然很适合现代GPU的加速 大的GEMM提供了非常大的状态空间,目标是包含所有的维度 使用...
GMP
背景 适应未来的AI计算需求 存储足够量的权重,但是明显的热点内容访问 强动态性,大范围、多次的随机动态访问 节能、低带宽需求,高效率数据流 低延迟 目标...
LLM心理行为学的研究
随着LLM的爆火,很多科研人员投入研究LLM表现出来的行为 特别是一些心理学方面的表现,比如: 谄媚 自信/不自信 固执己见/被质疑就动摇 从原理上说,本质上都是数学的统计概率...
LLM时代AI加速芯片面临的挑战
算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等...
AI加速芯片上的2D单元
卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...
语言的向量化
方式1,向量通过罗列的方式,表示所有信息的程度 向量维度足够多的时候,虽然能完整表达语义,但是效率非常低,每个语义只能激活很少的维度 不是每个维度都需要很高的表示精度, 方式2,向...
研究型团队的组织方法思考
一个成功的研究型团队,该怎么组织和管理?成功的方法学是什么? 当前的方式、方法 一个有背景,当前最顶尖学术机构认证过的,甚至是有类似成功经验的管理者 直接借鉴现有的其他组织的经验...
架构/微架构
设计 标量寄存器和向量寄存器统一,支持自动进行转换 异步单元(SP-PU-L1-DMA)之间都采用异步机制,依赖转移到异步目标 统一的同步机制 静态分配同步资源 原生软硬件支持...
LLM跑在边缘芯片上
模型工具,转换,加载等等 Distributed Llama https://github.com/b4rtaz/distributed-llama?tab=readme-ov-...
主流的产品
高通® QCS6490 https://docs.radxa.com/dragon/q6a 全志 A733 SoC https://docs.radxa.com/cub...
电路(硬件微架构)的难点和优势
难点、不适合 难以做复杂的算法(调度、分析、统计) 难以做逻辑深度比较深的计算 latency的长和不确定,模块间的时间不确定性 需要大量实现“异步”逻辑 消耗大量的面积 ...
AI突破的可能
新的信号处理方法 非常高的等价算力 高效率 单bit 非数学直接等价(乘加)的计算:查找表 处理好,抽象好,不可避免的动态特性 训练受梯度下降算法严格绑定,受数学约束,不太容...
梯度下降-拟合高层次的信息
拟合高层次信息的体现 如果不能很好的拟合高层次的信息 容易出现过拟合现象 dropout早期用于防止过拟合,适用于多epoch的场景,不适用于LLM 权重会反复摇摆,...
攻击 LLM
目的 破坏模型本身的一些设定,窃取一些隐藏在权重里面的信息。 LARGO 潜在空间优化:首先,研究者们并不直接修改问题文本,而是在模型的「大脑」内部,也就是高维的 ...
记忆
为什么需要记忆 人脑有非常强大的记忆系统和索引能力,管理着非常庞大的信息,能够准确联想起来非常多的记忆 记忆是AGI的一种重要能力 因为大脑容量限制,记忆是人类在当前信息爆...
爬虫
使用OCR进行信息收集,格式化 适应性强,灵活,更接近人眼
acquire release 实现内存一致性
背景 在单线程场景中,CPU 通常会保证程序顺序(Program Order) 的可见性,即单线程内的指令会按照代码编写的顺序执行(或看起来像是按顺序执行)存储器读写的结果也会符合单线程的...
Memory Consistency and Cache Coherence 定义
1. Memory Consistency(内存一致性) 定义:内存一致性是指多核或多处理器系统中,多个处理器对共享内存的访问顺序是否一致,以及这些访问操作是否满足特定的规则或模型。 ...
Nand flash
LUN → CE → Die → Plane → Bank → Block → Page Block 是擦除操作的最小单位 Page 是读写操作的最小单位,常见的Nand Flas...
完美复制一个我,那还是我吗?
如果现在的AI技术发展到了,能把一个人的所有记忆,思想,想法,性格,爱好,脾气都完全复制和实现, 那么这样一个物体还是我吗?这能称作是永生了吗? 能:相当于两个“机器”同时维护一个“我”这样...