Skip to main content

Recently Updated Pages

命名

基本问题

命名的重要性 好的设计从命名开始 怎么在团队内统一命名规则 制定规则和培训

Updated 1 month ago by Colin

CoT & 强化学习

算法&模型 TTS:Test-Time Scaling

--用推理的“临时态”实现短暂的意识 背景和方法 众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,...

Updated 1 month ago by Colin

LLM大语言模型的训练

算法&模型 Transformer

预训练 1.  继续预训练 微调 全面微调更容易出现两个问题:模型崩溃和灾难性遗忘 PEFT技术本质上,是作为微调的自然正则化器 数据集的质量和筛选,对微调的成功起着重要作用:一...

Updated 1 month ago by Colin

自然语言的内在逻辑

算法&模型

逻辑 推断: A 是 B 与或非 逻辑规律: 传递性 类比:判断相似性,通过类比来模仿很容易,但是分析内在原因,并描述出来,形成理论很难 晶体管的饱和 类比 边际效应 晶体管...

Updated 1 month ago by Colin

数学理解

基本问题

数学总是在发明各种定义,并且在定义的基础上寻找特定的规律 如果生活的一种现象符合某种数学的定义,那么就可以用已经证明的规律进行计算/推到 从而对抽象的事物用数学工具进行计算 比如说...

Updated 1 month ago by Colin

架构的力量

基本问题

什么样的架构设计是优秀的 工作效率 高效的开发效率 高效的使用 有效 能很好的满足多方需求 能快速、清晰的进行配置 合理的接口 生命力 支持不断...

Updated 2 months ago by Colin

Transformer黑盒

算法&模型 Transformer

问题 Transformer是怎么组织和表达自然语言的? 可能的方向 通过不断的训练、运行来对模型的权重进行解析--逆训练 生成出一系列的最核心的,最有效的样本的数据集,用于蒸馏其他的模...

Updated 2 months ago by Colin

意识

算法&模型 生物脑 人脑

表现为能一直统一个完整的,自洽的行为表现 保持行为、价值观的一贯性 能体现出个人的风格特色 有一些内在的价值观设定比较难以受外界的输入而改变 具有不完全受现有观念影响...

Updated 2 months ago by Colin

无监督训练

算法&模型

统计模型 rank_tree表达了一短句子的逻辑分割,一段句子的分割,语意的组合,是抽象的一种, 两个不一样的表示表达的是同一个语义怎么办? 腿短的是狗,腿长的也是狗,有些逻辑不是组合能表达...

Updated 2 months ago by Colin

通用的抽象

基本问题

背景、需求自动根据输入信息进行结构化建模让AI进行一种更通用,哲学上完备的方法,类似于,面向对象对编程技术的抽象自然语言等抽象概念的结构化通用抽象引擎, 通用NP问题解决通用基础计算单元,算法基...

Updated 3 months ago by Colin

幻觉

算法&模型 Transformer

模型生成不真实或非事实陈述的现象 即模型中的主导知识可以在文本生成过程中,掩盖那些不太突出的知识,从而导致模型编造不准确的细节 由于权重表达的信息有限,只能对大量的知识进行归类抽象表达,...

Updated 3 months ago by Colin

LLM时代AI加速芯片面临的挑战

AI加速芯片

算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等...

Updated 3 months ago by Colin

光学镜头和航空发动机的区别

基本问题

相同点 都是处理光流和气流,对其路径进行改变和控制 都有多层多级结构 为什么?

Updated 4 months ago by Colin

Adam AdamW

算法&模型

Adam核心计算流程 ​初始化参数 初始化一阶矩(动量)向量 m0​=0 和二阶矩(梯度平方的指数平均)向量 v0​=0。 设定超参数:学习率 η(默认0.001)、动量衰减因...

Updated 4 months ago by Colin

MLA by Deekseek

算法&模型 Transformer

MLA 的核心思想是通过低秩联合压缩技术,减少 K 和 V 矩阵的存储开销 相对于传统的MHA,主要引入了𝑊𝐷𝐾𝑉把ht压缩了,并在推理时候缓存压缩后的数据,而不是kv,kv是使用WU...

Updated 4 months ago by Colin

FlashAttention

算法&模型 Transformer

Attention计算 对一个Softmax计算的切片 def softmax(x): x_max = x.max() x_exp = torch.exp(x - x...

Updated 4 months ago by Colin

NSA 稀疏注意力机制 by deepseek

算法&模型 Transformer

NSA致力于实现硬件对齐的推理加速,通过特定的算法设计减少内存访问和硬件调度瓶颈,NSA 速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍 ...

Updated 4 months ago by Colin

NoC

计算机体系结构

OpenSMART https://github.com/hyoukjun/OpenSMART/tree/master connect https://users.ece.cmu.edu/...

Updated 4 months ago by Colin

RAM

计算机体系结构

DRAM 电容 带宽不是很高 需要刷新,会有颠簸 SRAM 面积和功耗不能和工艺平行 类型 Cpu register Flip Flops 每个bit都有一读一写 ...

Updated 4 months ago by Colin

Cache写机制 Write-through与Write-back

计算机体系结构

Cache写机制分为write through和write back两种。Write-through: Write is done synchronously both to the cache...

Updated 4 months ago by Colin