Search for | AGIX

梯度下降

算法&模型

梯度下降的每个step，都需要把所有的loss“汇总” 包含所有batch，所有的loss function，以及在多个step之间，多个epoch之间等价于对数据集的统计、回归、拟合，最终效果只能达到统计上的意义训练效率低，有用信息密度低、容易被坏数据平均相对于人脑缺乏思维的贪心原则缺少“自恰”的自主意识的判断一个样本的梯度下降，相对于整个模型，所表达的是对参数分布的一个小的倾向性调整不能确保模型肯定掌握、认同这个样本有矛盾的样本会按照概率进行中和...

通用的抽象

基本问题

背景、需求自动根据输入信息进行结构化建模让AI进行一种更通用，哲学上完备的方法，类似于，面向对象对编程技术的抽象自然语言等抽象概念的结构化通用抽象引擎，通用NP问题解决通用基础计算单元，算法基础范式要求怎么表达“抽象的程度” ,“抽象的能力”怎么表达“对象”的行为（“方法”），对象除了属性还有方法标准的抽象定义方法和通用的逻辑运行和表达方法对象所有都抽象为对象，对象的定义本身包含所有的约束，只要能生成出合格的对象就是符合约束对象，定义一个符号继承，分层级定义对象，定义公共属性，表达隐含的“是”拓扑关系及层级结构组...

LLM时代AI加速芯片面临的挑战

AI加速芯片

算法需求普遍使用MOE架构降低算力需求高度定制化的集成度高的大算子定制化的核心Attention加速算子：FlashAttention KVcache的压缩、加速等： Deepseek的Flash MLA 混合精度及量化低精度支持及累加精度保证多卡互联技术，包括快速的分布式all to all的性能，通信异步化，不占用计算核，最大化带宽利用率更低的latency，更高的throughput 异步通信，动态执行复杂的存储地址控制，复杂的MMU系统 Ato...

建模的方法

AI加速芯片仿真建模

使用python语法进行module的定义 python语法用来描述module之间的关系和定义latch的存储器定义module的算法和输入输出配置一些固定的规格参数针对throughput和latency的建模传递的标准信息都是 inst 定义一个通用的TL（throughput latency）的Module 支持配置 thread 通道数量处理inst的latency 处理inst的throughput：输入的通道的数量，输出的通道数量内部stand-by...

AI计算需求的抽象

AI加速芯片

算子角度信息维度映射，信息过滤，信息选择：Dot / GEMM => Join+Reduce 激活： ElementWise Broadcast 统计、动态选择、排序： Reduce 、G/S 随机数生成是不是可以把所有的计算都抽象成查找表的方式操作的方式由操作码+密码数来指定，实际上是定义一个查找表操作码可以是指令的imm，密码数可以是约定的，也可能是提前载入的乘法等价？信息加工的角度一堆向量和另外一堆向量交叉计算相关度存内计...

RWKV

算法&模型

RWKV-V7 采用了动态状态演化（Dynamic State Evolution），超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV-V7 拥有 NC1 的表达能力，使其可以解决许多 attention 无法解决的问题。

NSA 稀疏注意力机制 by deepseek

算法&模型 Transformer

NSA致力于实现硬件对齐的推理加速，通过特定的算法设计减少内存访问和硬件调度瓶颈，NSA 速度在64k inference相较 Flash Attention 前向加速9倍，反向加速6倍 NSA的总体框架是通过更紧凑和信息密集的表示来替换原始的键值对 NSA有三种映射策略，分别是压缩（cmp）、选择（slc）和滑动窗口（win）。通过将不同策略得到的键值对进行组合理解引入动态选择和压缩历史的KV，减少计算量，符合实际的自然语言规律，但是不一定完全匹配语言的表达逻辑没有改变tran...

FlashAttention

算法&模型 Transformer

Attention计算对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x_max) x_exp_sum = x_exp.sum() return x_exp / x_exp_sum 记录每个sub block的 softmax结果 + x_max(标量) + x_exp_sum(标量) 更新全局的 max(标量) 和 exp_sum(标量) 通过一次遍历eleme...

MLA by Deekseek

算法&模型 Transformer

MLA 的核心思想是通过低秩联合压缩技术，减少 K 和 V 矩阵的存储开销相对于传统的MHA，主要引入了𝑊𝐷𝐾𝑉把ht压缩了，并在推理时候缓存压缩后的数据，而不是kv，kv是使用WUV/WUK和CtKV恢复可以被训练的参数有 WDKV WUK WUV WKR

Adam AdamW

算法&模型

Adam核心计算流程初始化参数初始化一阶矩（动量）向量 m0=0 和二阶矩（梯度平方的指数平均）向量 v0=0。设定超参数：学习率 η（默认0.001）、动量衰减因子 β1（默认0.9）、二阶矩衰减因子 β2（默认0.999）、数值稳定常数 ϵ（默认1e-8）计算当前梯度在时间步 t，计算损失函数对参数 θt 的梯度 gt 更新一阶矩（动量项）对梯度进行指数加权移动平均，模拟动量效果：mt=β1⋅mt−1+(1−β1)⋅gt...

光学镜头和航空发动机的区别

基本问题

相同点都是处理光流和气流，对其路径进行改变和控制都有多层多级结构为什么？

自然语言的内在逻辑

算法&模型

逻辑推断： A 是 B 与或非逻辑规律：传递性类比：判断相似性，通过类比来模仿很容易，但是分析内在原因，并描述出来，形成理论很难晶体管的饱和类比边际效应晶体管的放大区类比线性关系逻辑规律推理任务划分为三种基本类型——溯因（Abduction）、演绎（Deduction）和归纳（Induction），比如 O=P(I) 溯因任务：已知p和对应的o，求可能的i。这类任务考察模型根据结果反推条件、理解代码语义的能力。演绎任务：已知p和i，求o。这类...

二值二进制 Binary 神经网络算法

AI加速芯片

背景FPGA的基本单元是LUT(查找表)，如果把LUT看成一种逻辑运算单元查找表的真值表可以表示静态权重查找表的部份输入表示动态权重FPGA的可重构特性，相对于AI处理器可以把部份或者全部的动态权重（操作数）固化成静态的真值表，大大提高PPA不同的模型和参数，可以通过重新配置FPGA的逻辑单元只适合推理，理论上训练的权重不能静态化，PPA优势不大把FPGA的LUT作为AI芯片的核心算力单元有利于硬件的标准化扩展到二进制神经网络，所有的数据都用二进制表示最大的特点是，所有数据表达范围都是完整的，没有任何稀疏，效率最高...

幻觉

算法&模型 Transformer

模型生成不真实或非事实陈述的现象即模型中的主导知识可以在文本生成过程中，掩盖那些不太突出的知识，从而导致模型编造不准确的细节由于权重表达的信息有限，只能对大量的知识进行归类抽象表达，会产生“想当然”的问题随着模型记忆大量信息并捕捉关联关系，它们会在泛化过程中适应新的分布。然而，在这一过程中，不占主导地位的知识可能会因过度平滑（smoothing）或信息压缩（compression）而被更常见的模式所掩盖。知识掩盖并不仅仅是数据不均衡的结果，而是知识表征之间竞争的直接产物。

工作风格的区别

基本问题

遇到意见不一致的时候的处理方法逃避，事前避免，自我保护性避免利用制定一些规则来使得问题有统一的处理方法，使得大家达成一致利用名义上的决策者，虽然不是管理者，平时不参与讨论，但是有决策权力和领导有不同意见的时候和下属有不同意见的时候当项目进度和创新有冲突的时候怎么鞭策下属努力工作

架构的力量

基本问题

什么样的架构设计是优秀的工作效率高效的开发效率高效的使用有效能很好的满足多方需求能快速、清晰的进行配置合理的接口生命力支持不断的演进优秀的架构设计能带来什么架构等级高级：设计方案、概念，规则低级：打补丁式的解决问题，通过增加一个规则、约束、变量的方式来解决问题

人脑的工作原理

算法&模型生物脑人脑

特点人脑具有反馈回路，反馈回路形成正反馈，不断训练神经元，加强神经元视觉神经能识别图像，也能通过提示想象出图像语言作为抽象能力很强的表示工具，被充分用于协助思考，但不是智力的全部 @维特根斯坦所有的神经元时刻待命，适当的输入技能激活输出不激活的状态需要主动抑制皮层神经的激活闭眼睛的时候，视觉神经会抑制视觉皮层的激活动态激活神经元默认是静息状态，根据输入，逐级激活需要激活的神经元学习和实践（训练和推理）同步进行，训推同时进行能量不足的...

记忆agent

算法&模型记忆

需求个人工具作为第二大脑，思维助手，能帮助思考、总结提升所有人的智力水平带无限的记忆，超越人类通过Agent（人工算法+LLM）的方式实现高层级抽象、意识、复杂逻辑。Agent的不断运行类似于人脑的逐步思考信息工具，不仅仅是笔记实现一些基本的对信息的思维逻辑操作优秀的人工接口，自然，聪明独立系统不断学习知识，通过庞大的记忆和渐进式推理能力，攻克领域问题作为一个独立的生产力工具资料库存储所有可能的信息作为数...

数学理解

基本问题

数学总是在发明各种定义，并且在定义的基础上寻找特定的规律如果生活的一种现象符合某种数学的定义，那么就可以用已经证明的规律进行计算/推到从而对抽象的事物用数学工具进行计算比如说互联网用的加解密算法，就是利用一些独特的数学证明其安全性数学有很多分支和流派，比如几何学、图论等等很多不同的分支虽然设计的定义（公理）不一样，但是实际上可能是表达同一种“现象”，只是用不同的方式进行描述有的时候，使用一个分支的一个规律推到出另外一个分支的规律，就会觉得很“神奇”，很“不可思议” ...

记忆

算法&模型记忆

为什么需要记忆人脑有非常强大的记忆系统和索引能力，管理着非常庞大的信息，能够准确联想起来非常多的记忆记忆是AGI的一种重要能力因为大脑容量限制，记忆是人类在当前信息爆炸的社会的最重要瓶颈其他的还有类似：推理逻辑能力，运算能力等等刨除记忆能力，其他的能力当前LLM已经有一个比较可用的实现记忆能力可能成为下一个快速增长的瓶颈点是不是未来会是：一个专注于基本语言和推理能力的小模型+大型的记忆系统不断的提升记忆内容的质量（效率，自洽度...）、内容的数量、效率 ...

Advanced Search

Search Terms

Content Type

Exact Matches

Tag Searches

Date Options

Search Results

101 total results found

梯度下降

通用的抽象

LLM时代AI加速芯片面临的挑战

建模的方法

AI计算需求的抽象

RWKV

NSA 稀疏注意力机制 by deepseek

FlashAttention

MLA by Deekseek

Adam AdamW

光学镜头和航空发动机的区别

自然语言的内在逻辑

二值二进制 Binary 神经网络算法

幻觉

工作风格的区别

架构的力量

人脑的工作原理

记忆agent

数学理解

记忆

Updated after

Updated before

Created after

Created before

Advanced Search

Search Terms

Content Type

Exact Matches

Tag Searches

Date Options

Search Results

101 total results found

梯度下降

通用的抽象

LLM时代AI加速芯片面临的挑战

建模的方法

AI计算需求的抽象

RWKV

NSA 稀疏注意力机制 by deepseek

FlashAttention

MLA by Deekseek

Adam AdamW

光学镜头和航空发动机的区别

自然语言的内在逻辑

二值 二进制 Binary 神经网络算法

幻觉

工作风格的区别

架构的力量

人脑的工作原理

记忆agent

数学理解

记忆

二值二进制 Binary 神经网络算法