当前AI技术发展的思考

问题 
 
 视觉模型在2016年火了之后，现在发展得怎么样了，为什么？
 
 看看商汤的股价就知道了 < 2 @ 20251220 
 技术不能满足大范围落地的需求 
 
 
 现在的LLM能不能达到AGI？或者说换个问法，现在的LLM能做到哪些？
 
 
 各种专用的AI应用大爆发 
 
 
 编程 
 
 
 问答 
 
 
 领域知识（金融、医疗、法律...） 
 
 
 生活服务 
 
 浏览器 
 吃穿住行 
 
 
 
 信息、娱乐 
 
 新闻资讯 
 视频 
 自媒体 
 
 
 
 企业加速 
 
 
 科研 
 
 
 
 
 专用领域 
 
 自动驾驶 
 工厂自动化，工业 
 教育 
 
 
 
 
 
 未来 
 
 LLM能实现智能？
 
 
 虽然当前的LLM看似只是在语言接龙，但是在局部的范围内（KV Cache）还是保持了自洽和抽象能力。 
 
 
 不能说这个是质变，但是不能否认其会引起质变，这次和2016的图形模型不同，这次是抽象了“语言”这个扩展能力无限的接口。 
 
 
 正如奥特曼所说的@202512，就算当前LLM不再发展，人类还完全没有开发完其应用空间和潜力 
 
 
 算力时最容易解决的问题，数据还有大量的视频没用到，模型更是简单，AI能力三要素好像都还有巨大空间 
 
 
 推理技术/Agent，通过高强度的推理能提高智能水平，那就能让 推理和预训练正循环起来 ，不断提高模型的能力 
 
 任务的拆解，步骤规划 
 自纠错更稳：出错后能回滚、能重试、能继续推进 
 
 
 
 使用工具的能力越来越强，任务的准确度越来越可靠，越来越像人类 
 
 
 通过语言的逻辑推理能力和人类接口(通过自然语言表达操作指令，而非编码)，AI可以熟练使用各种工具，计算机编程工具，现有软件，互联网等等。这种范式的上限就是一个顶级工具（贾维斯），虽然创新能力和抽象能力不高。 
 
 
 
 不能
 
 当前技术线路需要的算力、存储量，可能要在几十年之后才能达到，那么当前泡沫就会破裂 
 现在的模型，需要几千人在后训练阶段，管教系统 
 折腾出一些乱七八杂的RL的新技巧，都不能根本解决问题 
 虽然算力数据还有巨大空间，但是数据的质量没有明显提升，数量也没有指数级别的提升，不像从2016的卷积网络到LLM，数据训练量从GB级别到TB级别，而且文本的信息密度更高，更明确，质量更好 
 推理技术虽然能用算力/时间换智力，但是还是面临指数增长的问题
 
 上下文长度有限，KV cache容量限制，导致需要拆分多步推理 
 每次推理处理信息的效率会因为整体数量的增加、问题复杂度、搜索空间的增大而呈指数级下降 
 
 
 当前LLM还是在算概率，不能做到大范围的信息自洽，极易出错 
 在长程任务中，信噪比变低
 
 对前面任务的遗忘 
 小的错误会被噪声覆盖，导致始终无法纠正 
 因为噪声，目标不能很好得被确定，造成漂移