通用Agent的发展
Agent的需求背景
- 这些本应被封装为「日常AI工作流」的能力,却仍被塞进一个通用聊天框里手工完成。
- 这正是留给AI创业者的机会,我们不该让普通人用临时脚本搭建自己的「购房智能代理」,而应当创建一个个可复用、可协作、可沉淀的垂直AI应用。这些应用能自动聚合多源文档、动态构建决策知识图谱、实时比对市场数据、生成合规话术建议等。这样的垂直AI应用,以真实生活任务为中心,封装提示工程、记忆管理、多模态上下文维护,从而构建辅助人类做判断的一体化智能工作台。
- AI时代的Facebook或Google还尚未创立。当下竞争激烈的基础模型和GPU属于基础设施范畴。真正的应用还没有出现
- 理论有一家创业公司使用Gemini 3来进行上下文设计,然后再把结果输入到OpenAI模型中去执行,他们会根据新模型的发布情况不断进行替换,每个类别的智能体工作中表现最佳的模型可能都不同。而他们之所以能够这样做,是因为他们有独属于自己的模型评估体系。作为一家垂直领域的AI智能体公司,他们的核心壁垒不是自己的模型,而是私有的评测数据集。
- 当前模型「能够做到的事情」,与人们「实际使用AI的方式」(产生效果)之间,存在巨大的断层。因此,在2026年,OpenAI将继续前沿研究,同时重点投入于应用层、系统层、人机协同,尤其强调医疗、商业和日常生活场景。
技术理论背景
- MemRL 证明了,一个冻结的大脑,配合一个不断自我进化的记忆系统,就能实现持续的终身学习(Lifelong Learning)
- 智能不是玄幻的,也可以用算法表达
- 人工开发的分类算法,被梯度下降取代,那么代表意识决策的源头, 第二系统的自动化实现,也需要靠人工规则吗? agent就是在做这件事情
- 从fast rcnn的动态选择到各种LLM自然语言的逻辑处理
- 主体智能,自动agent,自主意识动作,无需编写规则,运行态的强化学习
- 意识系统,更高级别的抽象, 层层递进才有实现的可能
- 几乎所有注意力机制、本地记忆结构,乃至优化器本身,其实都可以视为联想记忆的特例
当前的方法
- 上下文压缩
- 集成RAG
- 递归语言模型RLM ,token代理,Python REPL交互式编程环境 https://mp.weixin.qq.com/s/Kg5oiN4LUWPDuW6ngTlP5A
- 接着模型像程序员一样编写代码,对文本变量进行关键词筛选、局部探查、逻辑拆分等操作,通过「编写代码-观察结果」的交互循环减少无效信息摄入
- 随后模型将复杂任务拆解为若干子任务,递归调用自身或轻量化子模型处理拆分后的文本片段,所有子任务输出均存储为新变量回流到REPL环境
- 最后主模型编写代码读取并整合所有子任务结果变量,进行逻辑拼接或语义处理,形成最终输出。
Agent公司的技术护城河
- 私有的评测数据集,评测方法,模型评估体系
- 私有的数据集,和模型结构,Agent流水和设计
开源测试集合
- HLE(Humanity's Last Exam,人类终极考试)
- stream-bench 交互式多级对话 https://github.com/stream-bench/stream-bench
No comments to display
No comments to display