Skip to main content

通用Agent的发展

Agent的需求背景

  1. 这些本应被封装为「日常AI工作流」的能力,却仍被塞进一个通用聊天框里手工完成。
  2. 这正是留给AI创业者的机会,我们不该让普通人用临时脚本搭建自己的「购房智能代理」,而应当创建一个个可复用、可协作、可沉淀的垂直AI应用。这些应用能自动聚合多源文档、动态构建决策知识图谱、实时比对市场数据、生成合规话术建议等。这样的垂直AI应用,以真实生活任务为中心,封装提示工程、记忆管理、多模态上下文维护,从而构建辅助人类做判断的一体化智能工作台。
  3. AI时代的Facebook或Google还尚未创立。当下竞争激烈的基础模型和GPU属于基础设施范畴。真正的应用还没有出现
  4. 理论有一家创业公司使用Gemini 3来进行上下文设计,然后再把结果输入到OpenAI模型中去执行,他们会根据新模型的发布情况不断进行替换,每个类别的智能体工作中表现最佳的模型可能都不同。而他们之所以能够这样做,是因为他们有独属于自己的模型评估体系。作为一家垂直领域的AI智能体公司,他们的核心壁垒不是自己的模型,而是私有的评测数据集
  5. 当前模型「能够做到的事情」,与人们「实际使用AI的方式」(产生效果)之间,存在巨大的断层。因此,在2026年,OpenAI将继续前沿研究,同时重点投入于应用层、系统层、人机协同,尤其强调医疗、商业和日常生活场景。

技术理论背景

  1. MemRL 证明了,一个冻结的大脑,配合一个不断自我进化的记忆系统,就能实现持续的终身学习(Lifelong Learning)
  2. 智能不是玄幻的,也可以用算法表达
    1. 人工开发的分类算法,被梯度下降取代,那么代表意识决策的源头, 第二系统的自动化实现,也需要靠人工规则吗? agent就是在做这件事情
    2. 从fast rcnn的动态选择到各种LLM自然语言的逻辑处理
    3. 主体智能,自动agent,自主意识动作,无需编写规则,运行态的强化学习
    4. 意识系统,更高级别的抽象, 层层递进才有实现的可能
  3. 几乎所有注意力机制、本地记忆结构,乃至优化器本身,其实都可以视为联想记忆的特例

Agent公司的技术护城河

  1. 私有的评测数据集,评测方法,模型评估体系
  2. 私有的数据集,和模型结构,Agent流水和设计

开源测试集合

  1. HLE(Humanity's Last Exam,人类终极考试)