AGI基础方法

AI突破的可能
新的信号处理方法 
 
 非常高的等价算力 
 高效率
 
 单bit 
 非数学直接等价（乘加）的计算：查找表 
 处理好，抽象好，不可避免的动态特性 
 训练受梯度下降算法严格绑定，受数学约束，不太容易改变，但是推理可以
 
 传统的多个乘法，表示成特定的逻辑运算或者最复杂的LUT 
 根据特定模型而动态配置的固定的物理计算逻辑电路 
 
 
 
 
 非传统数字电路
 
 存算
 
 针对性的算法端到端实现，避免为了实现传统数学定义而引入的各种负责度
 
 精度/误差 
 复杂的ADC及数据矫正 
 复杂的偏移和预处理、后处理 
 
 
 
 
 模拟 
 光子 
 
 
 
 新算法 
 
 充分利用大算力，减少数据流动
 
 上下文无关：必要的中间结果的流动，但是权重固定，有点像存算 
 上下文相关：自然的，固定的broadcast网络 
 
 
 更高的并行化
 
 更细粒度，更高规模的并行，而不需要同步 
 
 
 减少动态性
 
 支持数据动态，但是减少结构化动态 
 
 
 
 算法的上层要求 
 
 一个足够复杂的处理系统，能同时输入很多数据，输出很多数据 
 能够被按照意愿进行调整 
 
 新的计算范式 
 梯度下降 
 
 信号处理过程必须是线性的 
 目标是明确的 
 充分的精细的梯度下降（训练）代表在当前权重下的最优解 
 
 数据的组织方式 
 
 无缝包含各种类型的数据 
 人类不可读的数据信息

计算模型
背景 
 
 计算机已经发展了很多年，很多层的划分已经非常的明确 
 高层级的计算范式随着AI的发展，特别是LLM的发展，已经越发的清晰
 
 传统计算机软硬件堆栈->神经网络算子->神经网络计算图->Pytorch->分布式框架->LLM->Agent->MCP 
 由于AI发展的太快，计算机的底层基本没有变化，只是根据AI的需要进行特定的开发
 
 太底层，不灵活，算子及AI编译器开发消耗大量工作 
 软硬件结合的方式还是遵循传统计算机的经验 
 主流技术（CUDA）没有摆脱冯诺伊曼的架构，甚至编程模型/内存模型都没有变化 
 
 
 
 
 需要设计一个能适应AI的计算中间层
 
 位置：传统编译器+编程语言之上，神经网络层之下 
 主要抽象，数据流，数据的tensor运算等等 
 类似triton 
 
 
 
 计算范式 
 
 范式：一些明确的简单的规则 
 作用：提供给上下游一个明确的，稳定的操作界面、规则、接口 
 
 Boids算法及三条规则的启发 
 
 能自动保持稳定，回归稳定，经过外接的扰动后能自动回归稳定 
 稳定的变量可以是任何可以被量化和描述的 
 稳定的状态就是处理结束的标志 
 
 玻尔兹曼机 
 
 E = 所有 状态 * 权重 *状态 之和 
 用各个节点的状态表示各个权重的计算中间值和输入输出 
 把 改变中间状态 使得整体的 能量最低点 （稳态）作为网络前向（推理）的计算过程 
 训练和收敛：调整权重，使得针对所有的输入都能达到一个能量最低点 
 利用 能量最低 作为标识，把部分权重信息转移到状态，在推理的时候需要利用 能量最低 重新计算这部分权重 
 
 生命游戏 
 围棋

自洽后就有意识了吗？
自洽能力对于人工智能的重要性
 
 当前AI还不能轻易的实现自洽能力，甚至在在KV cache内的自洽性还存在挑战，权重范围内只能根据概率来输出 
 意识会去维护一个最本质的目的，不断检验当前的成果，提供未来行动的建议 
 
 
 自洽训练方法
 
 随机生成无数的样本，一旦触及需要修正的问题，则作为监督样本进行微调。确保一个新的观点对所有权重没有矛盾
 
 GPT4.0开始，非常喜欢用破折号，应该和20世纪初的文本作为训练材料有关 
 
 
 
 
 没有反思能力
 
 一个任务，不能越做越顺利，不断根据结果进行对流程的改进
 
 缺乏维护自洽的意识，不能对训练数据进行判断、识别，而是无差别得接受 
 
 
 当前的Agent还是需要人类不断的改进方法，需要人类提供“算法”->“做法” 机器不能有自洽的意识不断得接近目标 
 意识和大语言模型之间缺乏一个标准的可操作接口，大语言模型是一个语言计算器，意识相当于上下文，记忆是不可或缺的一部分

动态算法
Transformer类算法，依赖大维度的信息变换，相关性爆炸
 
 也就是尺寸很大的矩阵乘法，虽然很适合现代GPU的加速 
 大的GEMM提供了非常大的状态空间，目标是包含所有的维度 
 使用固定路径的权重链路来完整得表达信息变换的过程
 
 不管输入是什么，都要经过固定的计算路径，都要和所有的权重计算 
 虽然MoE，会有一定的动态性
 
 但是目前还不明确能不能继续缩小激活比例 
 动态选择的空间不大 
 
 
 
 
 虽然有些策略已经减小部分
 
 attention 
 分层，分组MLP等等 
 
 
 但是，还是会造成相关性爆炸
 
 大范围Reduce类操作的依赖
 
 整个矩阵维度的累加 
 softmax 
 
 
 交叉信息爆炸 
 
 
 
 
 小GEMM+动态权重
 
 使用很小的局部维度信息根据实际信息，动态得进行变换和按需要进行交叉、汇总、合并

短期记忆和长期记忆
一种误解 
 
 短期记忆是临时记忆，只是记忆的一部分关键信息 
 
 短期记忆 
 
 大脑的意识存在于短期记忆 
 是一个不断变化的，不断被更改的状态存储器 
 存储的是对当前状态的高度浓缩的，高度抽象的表示
 
 可能没有细节 
 可以作为关键词用于长期记忆的检索