Skip to main content

VLA & 世界模型

VLA(Vision - Language - Action):视觉 - 语言 - 动作模型

    视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头 范式一:端到端训练的单一大模型
      视觉编码器、LLM、动作头联合训练
      使用大规模的机器人操作数据进行微调。
      动作被直接表示为LLM词汇表的一部分(例如,将动作空间离散化为256个“动作词”)。
      范式二:高效适配的轻量级架构
        冻结预训练好的视觉编码器和LLM 在中间插入一个可训练的多模态适配器 只训练一个轻量级的动作头 端到端的算法

        世界模型(World Model)

        [图像 + 指令] 
            → 感知模块 → [结构化场景表示:物体、3D姿态、属性...] 
            → **显式世界模型(可学习的模拟器)** 
            → 规划器(利用世界模型进行模拟搜索) 
            → 控制器 → [输出动作]

         世界模型是在VLA的基础上,增加一个显式世界模型,用于理解和预测真实的物理世界

         显式地构建一个可学习、可解释、能进行精确物理预测的世界模型,然后用它来驱动规划和行动

        拟人

        端到端不能做到,就分层,视觉运动反馈,视觉识别,  语言识别, 大小脑分离,本地小脑小模型,云端大脑大模型