# VLA & 世界模型

#### VLA（Vision - Language - Action）：视觉 - 语言 - 动作模型

1. 视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头
2. 范式一：端到端训练的单一大模型
    1. 视觉编码器、LLM、动作头**联合训练**
    2. 使用大规模的机器人操作数据进行微调。

    3. 动作被直接表示为LLM词汇表的一部分（例如，将动作空间离散化为256个“动作词”）。

3. 范式二：高效适配的轻量级架构
    1. 冻结预训练好的视觉编码器和LLM
    2. 在中间插入一个**可训练的多模态适配器**
    3. **只训练一个轻量级的动作头**
4. **端到端的算法**

#### 世界模型（World Model）

\[图像 + 指令\]
 → 感知模块 → \[结构化场景表示：物体、3D姿态、属性...\]
 → \*\*显式世界模型（可学习的模拟器）\*\*
 → 规划器（利用世界模型进行模拟搜索）
 → 控制器 → \[输出动作\]

世界模型是在VLA的基础上，增加一个显式世界模型，用于理解和预测真实的物理世界

输入输出包括所有的物理显示，视频，声音，动作，压力等等

**显式地**构建一个可学习、可解释、能进行精确物理预测的世界模型，然后用它来驱动规划和行动

场景：一个骑着电动车的人从公交车头“鬼探头”冲了出来。汽车从容踩下刹车，避免了一场事故

**需要一个及其动态的，实时的，最优判断的算法，不是基于有限的人工规则的**

**信息的抽象等级，直接和世界模型能预测未来时间的长短相关，高层级的概念会一直贯穿（执行）很长一段时间**

##### 人类语言是AI的非常好的一种接口

1. 虽然人类语言看似比较复杂，但是他的**表达灵活性非常的高**，能表达任何东西，人类所有的知识科学都是通过语言来表达的
2. 所以一旦有了足够的样本数源就是一种**非常有性价比的接口**。
3. 世界模型其实也是利用了这种特性，只不过把语言替代成了任意的数据，包括视频通过输入无限多的视频样本，
4. 让模型学习到物理规律，然后直接输出视频，代表预测的结果

#### 拟人

1. 端到端不能做到，就分层，视觉运动反馈，视觉识别， 语言识别，
2. 大小脑分离，本地小脑小模型，云端大脑大模型