Skip to main content

VLA & 世界模型

VLA(Vision - Language - Action):视觉 - 语言 - 动作模型

  1. 视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头
  2. 范式一:端到端训练的单一大模型
    1. 视觉编码器、LLM、动作头联合训练
    2. 使用大规模的机器人操作数据进行微调。
    3. 动作被直接表示为LLM词汇表的一部分(例如,将动作空间离散化为256个“动作词”)。
  3. 范式二:高效适配的轻量级架构
    1. 冻结预训练好的视觉编码器和LLM
    2. 在中间插入一个可训练的多模态适配器
    3. 只训练一个轻量级的动作头
  4. 端到端的算法

世界模型(World Model)

[图像 + 指令] 
    → 感知模块 → [结构化场景表示:物体、3D姿态、属性...] 
    → **显式世界模型(可学习的模拟器)** 
    → 规划器(利用世界模型进行模拟搜索) 
    → 控制器 → [输出动作]

世界模型是在VLA的基础上,增加一个显式世界模型,用于理解和预测真实的物理世界

输入输出包括所有的物理显示,视频,声音,动作,压力等等

显式地构建一个可学习、可解释、能进行精确物理预测的世界模型,然后用它来驱动规划和行动

场景:一个骑着电动车的人从公交车头“鬼探头”冲了出来。汽车从容踩下刹车,避免了一场事故

需要一个及其动态的,实时的,最优判断的算法,不是基于有限的人工规则的

信息的抽象等级,直接和世界模型能预测未来时间的长短相关,高层级的概念会一直贯穿(执行)很长一段时间

人类语言是AI的非常好的一种接口
  1. 虽然人类语言看似比较复杂,但是他的表达灵活性非常的高,能表达任何东西,人类所有的知识科学都是通过语言来表达的
  2. 所以一旦有了足够的样本数源就是一种非常有性价比的接口。  
  3. 世界模型其实也是利用了这种特性,只不过把语言替代成了任意的数据,包括视频通过输入无限多的视频样本,
  4. 让模型学习到物理规律,然后直接输出视频,代表预测的结果

拟人

  1. 端到端不能做到,就分层,视觉运动反馈,视觉识别,  语言识别,
  2. 大小脑分离,本地小脑小模型,云端大脑大模型