用语言模型处理图像?
不太行,这个方向就有点荒谬(基于当前世界存在的信息基础)
不仅如此,目前流行的具身智能,竟然在尝试从《动作视频-行为描述》的端到端的训练
首先以下几个结论
- 当前大模型的成功,可以总结为对“自然语言”的成功高效地编解码,也就是有一定的抽象等级
- 这个的前提是已经有大量的文本数据用于训练
- 文本的信息量,所蕴含的信息还是比较少的,不像视频,图像有大量的物理特性
- 图像 尚未成功,至少数据量和抽象层级不够
- 高级的语义,逻辑,当前模型尚不能进行高效抽象,这就是为什么图形逻辑类评测表现不好的原因
- 图形最后可能还是要有卷积,因为效率问题,虽然现在的Transformer规模大,但是对图形的效率低
- 自然语言的抽象,不能泛化到其他的领域
- 这个是当前大多数科研人员的主要误区,总是以为,LLM已经可以像人一样说话,就可以理解语言里面的逻辑
- 实际上,所有的行为都离不开模型参数里面的概率
- 所有能和LLM对接的只有统计概率,不能超出这个范围
这就是为什么世界模型现在被反复提起,本质上是在模仿人类,在少量的样本上,抽象出高级的抽象能力。
No comments to display
No comments to display