Recently Updated Pages
VLA & 世界模型
VLA(Vision - Language - Action):视觉 - 语言 - 动作模型 视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头 范式一:端到端...
AI的效果悖论/骗局
现象 看起来现在的大模型已经无所不能,LLM的语言能力,nano banana的图像,Sora的视频等等 能生成几乎是任意的数字内容,其实在早几年的CV(卷积网络)时代就已经有过一次惊艳了。...
氛围编程 AI Coding
结论 人类需要掌握高级的架构/设计,底层的工作已经被编译器和AI替代了 目前AI还只能接受明确的任务,如果有循环依赖,嵌套的问题,就是很理想了 如果需要一个比较巧妙的、高度定制的、高性...
一种理想的智能架构
新架构 生物脑、人脑的组成要素:逻辑能力、长期记忆、短期记忆 长期记忆相当于硬盘,短期记忆相当于内存,计算能力相当ALU 大语言模型相当于语言ALU,KVcache相当于寄存器,权...
提示词-prompt-自然语言接口
虽然我认为研究LLM心理学是没有意义的行为,但是更好得让工具为你服务是我的目的 prompt 最好是正面的,不要通过否定的方式来提示,而是采用直接的表达方式 尽量准确,详细得描述要求,举...
通用Agent的发展
Agent的需求背景 这些本应被封装为「日常AI工作流」的能力,却仍被塞进一个通用聊天框里手工完成。 这正是留给AI创业者的机会,我们不该让普通人用临时脚本搭建自己的「购房智能代理」,而...
好奇心的底层原理
我们都知道好奇心对于动物的意义,而且也符合达尔文的生物进化理论, 好奇心的生理基础是大脑中多巴胺系统与前额叶皮层的协同作用,形成 “探索→获得信息→奖赏→持续探索” 的正反馈循环。 但是大脑...
用语言模型处理图像?
不太行,这个方向就有点荒谬(基于当前世界存在的信息基础) 不仅如此,目前流行的具身智能,竟然在尝试从《动作视频-行为描述》的端到端的训练 首先以下几个结论 当前大模型的成功,可以总结为...
CoT & 强化学习
--用推理的“临时态”实现短暂的意识 背景和方法 众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,...
Meaning Dataset 详细介绍文档
目录 概述 核心概念 语义层级结构 Rank 编码机制 序列生成机制 特殊功能机制 数据示例 概述 Meaning Dataset 是一个模仿自然语言结构和抽象表达的数据集。它通过层级化的...