VLA & 世界模型
VLA(Vision - Language - Action):视觉 - 语言 - 动作模型
使用大规模的机器人操作数据进行微调。
动作被直接表示为LLM词汇表的一部分(例如,将动作空间离散化为256个“动作词”)。
范式二:高效适配的轻量级架构
世界模型(World Model)
[图像 + 指令]
→ 感知模块 → [结构化场景表示:物体、3D姿态、属性...]
→ **显式世界模型(可学习的模拟器)**
→ 规划器(利用世界模型进行模拟搜索)
→ 控制器 → [输出动作]
世界模型是在VLA的基础上,增加一个显式世界模型,用于理解和预测真实的物理世界
显式地构建一个可学习、可解释、能进行精确物理预测的世界模型,然后用它来驱动规划和行动