Recently Updated Pages
记忆方法学
要求 需要设计一个健壮的系统,流程化,体系化,理论支撑 多层级的架构,层级解耦,独立迭代,不断增强 尽量端到端 本质上需要的能力和处理流程 语义解析,对“输入”的自...
预期的错位和偏差
人类对你自己的预期认知会存在错误和偏差 输入:当前或者过往的经验提出出来的对未来判断的有用的资讯 预期:你对未来某件事成功的概率判断 问题是,怎么才能做到最准确的判断?那就要清楚其对信息的...
氛围
这个词首先被用在了编程的领域,很奇怪的是编程本来是一件很精确的工作,追求准确无误的工作,但是“氛围编程”这个词语还是流行起来了, 那么这还是必然的还是无奈? 随着LLM基本搞定自然语言的理解...
动态算法
Transformer类算法,依赖大维度的信息变换,相关性爆炸 也就是尺寸很大的矩阵乘法,虽然很适合现代GPU的加速 大的GEMM提供了非常大的状态空间,目标是包含所有的维度 使用...
GMP
背景 适应未来的AI计算需求 存储足够量的权重,但是明显的热点内容访问 强动态性,大范围、多次的随机动态访问 节能、低带宽需求,高效率数据流 低延迟 目标...
LLM心理行为学的研究
随着LLM的爆火,很多科研人员投入研究LLM表现出来的行为 特别是一些心理学方面的表现,比如: 谄媚 自信/不自信 固执己见/被质疑就动摇 从原理上说,本质上都是数学的统计概率...
LLM时代AI加速芯片面临的挑战
算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等...
AI加速芯片上的2D单元
卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...
语言的向量化
方式1,向量通过罗列的方式,表示所有信息的程度 向量维度足够多的时候,虽然能完整表达语义,但是效率非常低,每个语义只能激活很少的维度 不是每个维度都需要很高的表示精度, 方式2,向...
研究型团队的组织方法思考
一个成功的研究型团队,该怎么组织和管理?成功的方法学是什么? 当前的方式、方法 一个有背景,当前最顶尖学术机构认证过的,甚至是有类似成功经验的管理者 直接借鉴现有的其他组织的经验...
架构/微架构
设计 标量寄存器和向量寄存器统一,支持自动进行转换 异步单元(SP-PU-L1-DMA)之间都采用异步机制,依赖转移到异步目标 统一的同步机制 静态分配同步资源 原生软硬件支持...
昂贵的共识
论点:社会达成一个共识是要付出巨大的代价的 流浪地球的计划和数字人的竞争 电动车方案,中国的锂电池,日本的氢能 共识是什么,有什么作用 学历是最简单的共识 认可是昂贵的共识 资本...
LLM跑在边缘芯片上
模型工具,转换,加载等等 Distributed Llama https://github.com/b4rtaz/distributed-llama?tab=readme-ov-...
主流的产品
高通® QCS6490 https://docs.radxa.com/dragon/q6a 全志 A733 SoC https://docs.radxa.com/cub...
电路(硬件微架构)的难点和优势
难点、不适合 难以做复杂的算法(调度、分析、统计) 难以做逻辑深度比较深的计算 latency的长和不确定,模块间的时间不确定性 需要大量实现“异步”逻辑 消耗大量的面积 ...
命名
命名的重要性 好的设计从命名开始 研究表明,最优秀的设计师会设计出更快、更小、更简单的结构,而且设计过程也更轻松。伟大的结构和一般的结构之间差了一个数量级——Fred Brooks,Jr...
AI突破的可能
新的信号处理方法 非常高的等价算力 高效率 单bit 非数学直接等价(乘加)的计算:查找表 处理好,抽象好,不可避免的动态特性 训练受梯度下降算法严格绑定,受数学约束,不太容...
梯度下降-拟合高层次的信息
拟合高层次信息的体现 如果不能很好的拟合高层次的信息 容易出现过拟合现象 dropout早期用于防止过拟合,适用于多epoch的场景,不适用于LLM 权重会反复摇摆,...
LLM信息空间的映射
乘法 两个32bit的浮点数乘法,相当于32位的bit向量做空间映射 每个bit代表了特殊的含义,指数、尾数以及对应的档位 乘法不能充分利用32位的所有表达空间,精度越低的数据信息利用...
攻击 LLM
目的 破坏模型本身的一些设定,窃取一些隐藏在权重里面的信息。 LARGO 潜在空间优化:首先,研究者们并不直接修改问题文本,而是在模型的「大脑」内部,也就是高维的 ...