ChatGLM3典型计算图

## data flow

                    query    ->  "你好"
                      |
                  tokenizer  -> input_ids  [6]
                      |

rotary_pos_emb embedding -> [1, 6, 4096] \ / GLMBlock x 28 -> [6, 1, 4096] <---| RMSNorm -> [6, 1, 4096] | final_layernorm [-1:] -> [1, 1, 4096] | Linear -> [1, 1, 65024] | output_layer 4096->65024 softmax -> [1, 65024] | multinomial -> [1] | cat([input_ids, next_tokens]) ---| ↓ tokenizer.decode( )

GLMBlock

  input

/
/ RMSNorm hidden_states -> [6, 1, 4096] | | /
| | | pow(2) -> [6, 1, 4096] | | | | | | | mean -> [6, 1, 1] | | | ↓ | | | rsqrt( + eps) -> [6, 1, 1] | | \ / | | mul -> [6, 1, 4096] | | \ weight -> [4096] | | \ / | RMSNorm mul -> [6, 1, 4096] |
| SelfAttention x -> [6, 1, 4096] | | | | | Linear -> [6, 1, 4608] 4096->4608 | | / |
| | q k v [6, 1, 32, 128] [6, 1, 2, 128] [6, 1, 2, 128] | | / |
| | pos_emb pos_emb \ -> cat( x0y0-x1y1, x1y0-x0y1, x, y) | | | | | | | | expand expand -> [6, 1, 32, 128] [6, 1, 32, 128] | | permute permute permute -> [1, 32, 6, 128] [1, 32, 6, 128] [1, 32, 6, 128] | | \ / | | | |---- matmul | -> [1, 32, 6, 128] [1, 32, 128, 6] -> [1, 32, 6, 6] | | | add(mask) / -> [1, 32, 6, 6] | | attention| softmax / -> [1, 32, 6, 6] dim:-1 | | | \ / | | |---- matmul -> [1, 32, 6, 6] [1, 32, 6, 128] -> [1, 32, 6, 128] -> [6, 1, 4096] | SelfAttention Linear -> [6, 1, 4096] 4096->4096 | / | dropout \ / Add /
| RMSNorm hidden_states -> [6, 1, 4096] | | /
| | | pow(2) -> [6, 1, 4096] | | | | | | | mean -> [6, 1, 1] | | | ↓ | | | rsqrt( + eps) -> [6, 1, 1] | | \ / | | mul -> [6, 1, 4096] | | \ weight -> [4096] | | \ / | RMSNorm mul -> [6, 1, 4096] | / | mlp / | | Linear -> [6, 1, 27392] 4096->27392 | | /
| | chunk1 chunk0 -> [6, 1, 13696] | | | |
| | | | sigmoid | | | | / | | | mul | | \ / | | mul -> [6, 1, 13696] | mlp Linear -> [6, 1, 4096] 13696->4096 | / | dropout | / Add

Transformer

KV Cache

ChatGLM3典型计算图

Tokenization

Transformer in CV

新方法

Attention是不是必须的

神经网络的逻辑

改进大规模训练稀疏自编码器的方法

Transformer NLP到底有没有智能？

LLM大语言模型的训练

Transformer黑盒

NSA 稀疏注意力机制 by deepseek

FlashAttention

MLA by Deekseek

幻觉

LLM信息空间的映射

LLM推理行为

梯度下降-拟合高层次的信息

生物脑（人脑）的优势

意识（自我）

人脑的工作原理

仿真人脑的基本条件

人脑的推理模型

人脑的本能

CoT & 强化学习

分层LLM推理与Scaling思维模板

自然语言的内在逻辑

记忆

RAG

GraphRAG

记忆方法学

爬虫

思维编织器 WeaveMind

Meaning Dataset 详细介绍文档

附带meaning tree信息的数据集

AI突破的可能

计算模型

自洽后就有意识了吗？

动态算法

短期记忆和长期记忆

通用Agent的发展

Agentic Engineering 智能体编排

Agent Harness 解剖：生产级智能体外壳的 12 个组件

私人LLM评测 数据集和结果

卷积计算的测试

复杂工程的实践测试

一种理想的智能体编排架构

大脑记忆的核心机制

理想架构-Harness12对照分析

基于关键词的知识图

ChatGLM3典型计算图

GLMBlock

私人LLM评测数据集和结果