Skip to main content

通用Agent的发展

Agent的需求背景

  1. 这些本应被封装为「日常AI工作流」的能力,却仍被塞进一个通用聊天框里手工完成。
  2. 这正是留给AI创业者的机会,我们不该让普通人用临时脚本搭建自己的「购房智能代理」,而应当创建一个个可复用、可协作、可沉淀的垂直AI应用。这些应用能自动聚合多源文档、动态构建决策知识图谱、实时比对市场数据、生成合规话术建议等。这样的垂直AI应用,以真实生活任务为中心,封装提示工程、记忆管理、多模态上下文维护,从而构建辅助人类做判断的一体化智能工作台。
  3. AI时代的Facebook或Google还尚未创立。当下竞争激烈的基础模型和GPU属于基础设施范畴。真正的应用还没有出现
  4. 理论有一家创业公司使用Gemini 3来进行上下文设计,然后再把结果输入到OpenAI模型中去执行,他们会根据新模型的发布情况不断进行替换,每个类别的智能体工作中表现最佳的模型可能都不同。而他们之所以能够这样做,是因为他们有独属于自己的模型评估体系。作为一家垂直领域的AI智能体公司,他们的核心壁垒不是自己的模型,而是私有的评测数据集
  5. 当前模型「能够做到的事情」,与人们「实际使用AI的方式」(产生效果)之间,存在巨大的断层。因此,在2026年,OpenAI将继续前沿研究,同时重点投入于应用层、系统层、人机协同,尤其强调医疗、商业和日常生活场景。

技术理论背景

  1. MemRL 证明了,一个冻结的大脑,配合一个不断自我进化的记忆系统,就能实现持续的终身学习(Lifelong Learning)
  2. 智能不是玄幻的,也可以用算法表达
    1. 人工开发的分类算法,被梯度下降取代,那么代表意识决策的源头, 第二系统的自动化实现,也需要靠人工规则吗? agent就是在做这件事情
    2. 从fast rcnn的动态选择到各种LLM自然语言的逻辑处理
    3. 主体智能,自动agent,自主意识动作,无需编写规则,运行态的强化学习
    4. 意识系统,更高级别的抽象, 层层递进才有实现的可能
  3. 几乎所有注意力机制、本地记忆结构,乃至优化器本身,其实都可以视为联想记忆的特例

当前的方法

  1. 上下文压缩
  2. 集成RAG
  3. 递归语言模型RLM ,token代理,Python REPL交互式编程环境  https://mp.weixin.qq.com/s/Kg5oiN4LUWPDuW6ngTlP5A
    1. 接着模型像程序员一样编写代码,对文本变量进行关键词筛选、局部探查、逻辑拆分等操作,通过「编写代码-观察结果」的交互循环减少无效信息摄入
    2. 随后模型将复杂任务拆解为若干子任务,递归调用自身或轻量化子模型处理拆分后的文本片段,所有子任务输出均存储为新变量回流到REPL环境
    3. 最后主模型编写代码读取并整合所有子任务结果变量,进行逻辑拼接或语义处理,形成最终输出。

Agent公司的技术护城河

  1. 私有的评测数据集,评测方法,模型评估体系
  2. 私有的数据集,和模型结构,Agent流水和设计

开源测试集合

  1. HLE(Humanity's Last Exam,人类终极考试)
  2. stream-bench 交互式多级对话  https://github.com/stream-bench/stream-bench