VLA & 世界模型

视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头
范式一：端到端训练的单一大模型
1. 视觉编码器、LLM、动作头联合训练
2. 使用大规模的机器人操作数据进行微调。
3. 动作被直接表示为LLM词汇表的一部分（例如，将动作空间离散化为256个“动作词”）。
范式二：高效适配的轻量级架构
1. 冻结预训练好的视觉编码器和LLM
2. 在中间插入一个可训练的多模态适配器
3. 只训练一个轻量级的动作头
端到端的算法

[图像 + 指令]
→ 感知模块 → [结构化场景表示：物体、3D姿态、属性...]
→ **显式世界模型（可学习的模拟器）**
→ 规划器（利用世界模型进行模拟搜索）
→ 控制器 → [输出动作]

世界模型是在VLA的基础上，增加一个显式世界模型，用于理解和预测真实的物理世界

输入输出包括所有的物理显示，视频，声音，动作，压力等等

显式地构建一个可学习、可解释、能进行精确物理预测的世界模型，然后用它来驱动规划和行动

场景：一个骑着电动车的人从公交车头“鬼探头”冲了出来。汽车从容踩下刹车，避免了一场事故

需要一个及其动态的，实时的，最优判断的算法，不是基于有限的人工规则的