VLA & 世界模型

VLA（Vision - Language - Action）：视觉 - 语言 - 动作模型

视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头
范式一：端到端训练的单一大模型
1. 视觉编码器、LLM、动作头联合训练
2. 使用大规模的机器人操作数据进行微调。
3. 动作被直接表示为LLM词汇表的一部分（例如，将动作空间离散化为256个“动作词”）。
范式二：高效适配的轻量级架构
1. 冻结预训练好的视觉编码器和LLM
2. 在中间插入一个可训练的多模态适配器
3. 只训练一个轻量级的动作头
端到端的算法

世界模型（World Model）

[图像 + 指令]
→ 感知模块 → [结构化场景表示：物体、3D姿态、属性...]
→ **显式世界模型（可学习的模拟器）**
→ 规划器（利用世界模型进行模拟搜索）
→ 控制器 → [输出动作]

世界模型是在VLA的基础上，增加一个显式世界模型，用于理解和预测真实的物理世界

输入输出包括所有的物理显示，视频，声音，动作，压力等等

显式地构建一个可学习、可解释、能进行精确物理预测的世界模型，然后用它来驱动规划和行动

场景：一个骑着电动车的人从公交车头“鬼探头”冲了出来。汽车从容踩下刹车，避免了一场事故

需要一个及其动态的，实时的，最优判断的算法，不是基于有限的人工规则的

信息的抽象等级，直接和世界模型能预测未来时间的长短相关，高层级的概念会一直贯穿（执行）很长一段时间

人类语言是AI的非常好的一种接口

虽然人类语言看似比较复杂，但是他的表达灵活性非常的高，能表达任何东西，人类所有的知识科学都是通过语言来表达的
所以一旦有了足够的样本数源就是一种非常有性价比的接口。
世界模型其实也是利用了这种特性，只不过把语言替代成了任意的数据，包括视频通过输入无限多的视频样本，
让模型学习到物理规律，然后直接输出视频，代表预测的结果

拟人

端到端不能做到，就分层，视觉运动反馈，视觉识别，语言识别，
大小脑分离，本地小脑小模型，云端大脑大模型

Transformer

KV Cache

ChatGLM3典型计算图

Tokenization

Transformer in CV

新方法

Attention是不是必须的

神经网络的逻辑

改进大规模训练稀疏自编码器的方法

Transformer NLP到底有没有智能？

LLM大语言模型的训练

Transformer黑盒

NSA 稀疏注意力机制 by deepseek

FlashAttention

MLA by Deekseek

幻觉

LLM信息空间的映射

LLM推理行为

梯度下降-拟合高层次的信息

生物脑（人脑）的优势

意识（自我）

人脑的工作原理

仿真人脑的基本条件

CoT & 强化学习

分层LLM推理与Scaling思维模板

自然语言的内在逻辑

记忆

RAG

GraphRAG

记忆方法学

爬虫

思维编织器 WeaveMind

Meaning Dataset 详细介绍文档

附带meaning tree信息的数据集

AI突破的可能

计算模型

自洽后就有意识了吗？

动态算法

短期记忆和长期记忆

通用Agent的发展

一种理想的智能体编排架构

Agentic Engineering 智能体编排

私人LLM评测 数据集和结果

卷积计算的测试

复杂工程的实践测试

VLA & 世界模型

VLA（Vision - Language - Action）：视觉 - 语言 - 动作模型

世界模型（World Model）

人类语言是AI的非常好的一种接口

拟人

私人LLM评测数据集和结果