Skip to main content

Recently Updated Pages

动态算法

算法&模型 AGI基础方法

Transformer类算法,依赖大维度的信息变换,相关性爆炸 也就是尺寸很大的矩阵乘法,虽然很适合现代GPU的加速 大的GEMM提供了非常大的状态空间,目标是包含所有的维度 使用...

Updated 2 months ago by Colin

GMP

AI加速芯片 GMP

背景 适应未来的AI计算需求 存储足够量的权重,但是明显的热点内容访问 强动态性,大范围、多次的随机动态访问 节能、低带宽需求,高效率数据流 低延迟 目标...

Updated 2 months ago by Colin

LLM心理行为学的研究

基本问题

随着LLM的爆火,很多科研人员投入研究LLM表现出来的行为 特别是一些心理学方面的表现,比如: 谄媚 自信/不自信 固执己见/被质疑就动摇 从原理上说,本质上都是数学的统计概率...

Updated 2 months ago by Colin

LLM时代AI加速芯片面临的挑战

AI加速芯片

算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等...

Updated 2 months ago by Colin

AI加速芯片上的2D单元

AI加速芯片

卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel...

Updated 2 months ago by Colin

语言的向量化

算法&模型

方式1,向量通过罗列的方式,表示所有信息的程度 向量维度足够多的时候,虽然能完整表达语义,但是效率非常低,每个语义只能激活很少的维度 不是每个维度都需要很高的表示精度, 方式2,向...

Updated 2 months ago by Colin

研究型团队的组织方法思考

基本问题

一个成功的研究型团队,该怎么组织和管理?成功的方法学是什么? 当前的方式、方法  一个有背景,当前最顶尖学术机构认证过的,甚至是有类似成功经验的管理者 直接借鉴现有的其他组织的经验...

Updated 2 months ago by Colin

架构/微架构

AI加速芯片 GMP

设计 标量寄存器和向量寄存器统一,支持自动进行转换 异步单元(SP-PU-L1-DMA)之间都采用异步机制,依赖转移到异步目标 统一的同步机制 静态分配同步资源 原生软硬件支持...

Updated 3 months ago by Colin

LLM跑在边缘芯片上

AI加速芯片 边缘推理芯片

模型工具,转换,加载等等  Distributed Llama   https://github.com/b4rtaz/distributed-llama?tab=readme-ov-...

Updated 3 months ago by Colin

主流的产品

AI加速芯片 边缘推理芯片

高通® QCS6490 https://docs.radxa.com/dragon/q6a 全志 A733 SoC https://docs.radxa.com/cub...

Updated 3 months ago by Colin

电路(硬件微架构)的难点和优势

AI加速芯片

难点、不适合 难以做复杂的算法(调度、分析、统计) 难以做逻辑深度比较深的计算 latency的长和不确定,模块间的时间不确定性 需要大量实现“异步”逻辑 消耗大量的面积 ...

Updated 3 months ago by Colin

AI突破的可能

算法&模型 AGI基础方法

新的信号处理方法 非常高的等价算力 高效率 单bit 非数学直接等价(乘加)的计算:查找表 处理好,抽象好,不可避免的动态特性 训练受梯度下降算法严格绑定,受数学约束,不太容...

Updated 3 months ago by Colin

梯度下降-拟合高层次的信息

算法&模型 Transformer

拟合高层次信息的体现 如果不能很好的拟合高层次的信息 容易出现过拟合现象 dropout早期用于防止过拟合,适用于多epoch的场景,不适用于LLM 权重会反复摇摆,...

Updated 4 months ago by Colin

攻击 LLM

算法&模型

目的 破坏模型本身的一些设定,窃取一些隐藏在权重里面的信息。 LARGO 潜在空间优化:首先,研究者们并不直接修改问题文本,而是在模型的「大脑」内部,也就是高维的 ...

Updated 4 months ago by Colin

记忆

算法&模型 记忆和语言

为什么需要记忆 人脑有非常强大的记忆系统和索引能力,管理着非常庞大的信息,能够准确联想起来非常多的记忆 记忆是AGI的一种重要能力 因为大脑容量限制,记忆是人类在当前信息爆...

Updated 4 months ago by Colin

爬虫

算法&模型 记忆和语言

使用OCR进行信息收集,格式化 适应性强,灵活,更接近人眼

Updated 4 months ago by Colin

acquire release 实现内存一致性

计算机体系结构

背景 在单线程场景中,CPU 通常会保证程序顺序(Program Order) 的可见性,即单线程内的指令会按照代码编写的顺序执行(或看起来像是按顺序执行)存储器读写的结果也会符合单线程的...

Updated 5 months ago by Colin

Memory Consistency and Cache Coherence 定义

计算机体系结构 Memory Consistency and Cache Coherence

1. Memory Consistency(内存一致性) 定义:内存一致性是指多核或多处理器系统中,多个处理器对共享内存的访问顺序是否一致,以及这些访问操作是否满足特定的规则或模型。 ...

Updated 5 months ago by Colin

Nand flash

计算机体系结构

LUN → CE → Die → Plane → Bank → Block → Page​ Block 是擦除操作的最小单位 Page 是读写操作的最小单位,常见的Nand Flas...

Updated 5 months ago by Colin

完美复制一个我,那还是我吗?

基本问题

如果现在的AI技术发展到了,能把一个人的所有记忆,思想,想法,性格,爱好,脾气都完全复制和实现, 那么这样一个物体还是我吗?这能称作是永生了吗? 能:相当于两个“机器”同时维护一个“我”这样...

Updated 5 months ago by Colin