直觉并不落后_合并提纲 直觉并不落后 从 AI 的边界,看人的位置 背景 :AI 越来越强——能作诗、能生成视频、能写代码,看着像要无所不能。 疑问 :可它到底止于哪、为什么?而它够不到的地方,是不是恰恰是人最该站的位置? 论点:直觉与第一性原理不落后,正是人超越「解题机器」的关键 一、AI 是台越来越强的「解题机器」 现在已经成的 作词、作诗 视频生成与修改:关羽弹吉他、名人虚构照片 应用大爆发:编程、问答、领域知识(金融/医疗/法律)、生活服务、信息娱乐、企业加速、科研、工业自动化、教育 还会更强——能力三要素都还有巨大空间 算力最容易解决;数据还有大量视频没用上;模型本身还很简单 抽象出了「语言」这个扩展能力无限的接口——这正是它和 2016 图形模型的根本不同 看似只是语言接龙,但局部范围内(KV Cache)已能保持自洽与抽象 不敢说是质变,但难否认它会引起质变:当年退潮的是视觉模型(见节点二旁证),这一轮抽象的却是「语言」这层接口 推理与预训练正循环:高强度推理提升智能,反过来再喂回预训练 会拆解任务、规划步骤 自纠错更稳:能回滚、能重试、能继续推进 工具能力日强:用自然语言(而非编码)操作各种工具,上限是一个顶级工具「贾维斯」 奥特曼:就算 LLM 不再发展,它的应用空间和潜力都远没开发完 但本质——在内嵌空间与要求之间取一个最优中点:有智能,无真正创新 LLM 涂鸦:给的提示越细,输出越被切成对应的小段,本质是在约束与目标之间取中点 无提示 | | 输出 |AAABBBCCCDDDEEE| 提示 | | | | | 输出 |AAA|AAA|AAA|AAA| 提示 | | | 输出 |AAABBBC|AAABBBC| 提示 | | 输出 |ABCDE| 所以它是顶级工具,却创新、抽象能力不高 但「取中点」不等于没有智能——只是要再往前一步,需要更复杂的状态表示与计算过程 二、可它终究止于边界,原因是根本性的 止于哪 不成:自动驾驶、人形机器人服务人类 不确定:VLA——理论可行,但端到端对数据量/算力要求极高 视觉端:提供完整的视觉信息——手指与物体之间的 gap、手臂的行动方向 语言作决策中心:决定下一步的目标,并以自然语言输出 执行器:把语言翻译成运动控制 旁证:视觉模型 2016 年爆火,如今落地远不及预期(商汤股价 < 2 @ 2025) 为什么——两条判据 准确率:99 与 90 之差——落地要的是 99,模型却停在 90 抽象等级对比样本数量:任务越抽象、可用样本越稀,越做不动 为什么跨不过去——机制 本质在算概率:不能大范围保持信息自洽,极易出错 长程任务信噪比下降:遗忘前序、小错被噪声淹没难以纠正、目标漂移 推理换智力有天花板:上下文/KV Cache 有限,要多步拆分;单步处理信息的效率随复杂度、搜索空间增大而指数下降 工程修补不治本:几千人在后训练阶段管教、折腾各种 RL 新技巧;数据质量与数量都没质变(不像 2016 卷积网络→LLM 的 GB→TB);当前路线所需的算力/存储或要几十年后才够,泡沫可能先破 三、边界之外,正是人的直觉、灵感与真正创新 什么才算「真正创造/发明」 创造一种完全没有的概念或抽象:定义一套全新的、具有公共抽象特征的概念或规范,用以解决问题 反例:那只是搜索或工程,不算发明 把已有的概念拿来组合、应用 用一个数学定理去证明另一个猜想 机器恰恰只能做后者 取最优中点 = 组合、搜索;从无到有造一个新概念,正是它最缺的 四、而直觉本不落后——它是世界的底色 世界的底色是直觉的、物质的 宏观世界:已知的基础理论基本已全覆盖 微观的人造抽象,常常缺宏观现实的支撑 「相对论是卫星定位的基础」这类反例也站不住——只因我们还没能完美解释宏观宇宙,才暂借数学模型粗略定义 直觉的另一个名字:第一性原理 那道经典数学题(铅笔 1.5 元、圆珠笔 2.5 元,共 10 支、花 22 元):不必引入未知数、列二元一次方程 按事物运转的逻辑直接得解:(实际花费 − 全买铅笔的花费) ÷ 单价差 = 圆珠笔数量 病根:教育习惯让人套公式、按部就班,却不引导去探究事物的本质 连 LLM 自己都是工程直觉的胜利 不靠高深理论、至今是黑盒,却大获成功——可见那些过度抽象的数学、物理理论,未必绝对必要 所以,你觉得呢?