当前AI技术发展的思考 问题 视觉模型在2016年火了之后,现在发展得怎么样了,为什么? 看看商汤的股价就知道了 < 2 @ 20251220 技术不能满足大范围落地的需求 现在的LLM能不能达到AGI?或者说换个问法,现在的LLM能做到哪些? 各种专用的AI应用大爆发 编程 问答 领域知识(金融、医疗、法律...) 生活服务 浏览器 吃穿住行 信息、娱乐 新闻资讯 视频 自媒体 企业加速 科研 专用领域 自动驾驶 工厂自动化,工业 教育 未来 LLM能实现智能? 虽然当前的LLM看似只是在语言接龙,但是在局部的范围内(KV Cache)还是保持了自洽和抽象能力。 不能说这个是质变,但是不能否认其会引起质变,这次和2016的图形模型不同,这次是抽象了“语言”这个扩展能力无限的接口。 正如奥特曼所说的@202512,就算当前LLM不再发展,人类还完全没有开发完其应用空间和潜力 算力时最容易解决的问题,数据还有大量的视频没用到,模型更是简单,AI能力三要素好像都还有巨大空间 推理技术/Agent,通过高强度的推理能提高智能水平,那就能让 推理和预训练正循环起来 ,不断提高模型的能力 任务的拆解,步骤规划 自纠错更稳:出错后能回滚、能重试、能继续推进 使用工具的能力越来越强,任务的准确度越来越可靠,越来越像人类 通过语言的逻辑推理能力和人类接口(通过自然语言表达操作指令,而非编码),AI可以熟练使用各种工具,计算机编程工具,现有软件,互联网等等。这种范式的上限就是一个顶级工具(贾维斯),虽然创新能力和抽象能力不高。 不能 当前技术线路需要的算力、存储量,可能要在几十年之后才能达到,那么当前泡沫就会破裂 现在的模型,需要几千人在后训练阶段,管教系统 折腾出一些乱七八杂的RL的新技巧,都不能根本解决问题 虽然算力数据还有巨大空间,但是数据的质量没有明显提升,数量也没有指数级别的提升,不像从2016的卷积网络到LLM,数据训练量从GB级别到TB级别,而且文本的信息密度更高,更明确,质量更好 推理技术虽然能用算力/时间换智力,但是还是面临指数增长的问题 上下文长度有限,KV cache容量限制,导致需要拆分多步推理 每次推理处理信息的效率会因为整体数量的增加、问题复杂度、搜索空间的增大而呈指数级下降 当前LLM还是在算概率,不能做到大范围的信息自洽,极易出错 在长程任务中,信噪比变低 对前面任务的遗忘 小的错误会被噪声覆盖,导致始终无法纠正 因为噪声,目标不能很好得被确定,造成漂移