Advanced Search
Search Results
158 total results found
预期的错位和偏差
人类对你自己的预期认知会存在错误和偏差 输入:当前或者过往的经验提出出来的对未来判断的有用的资讯 预期:你对未来某件事成功的概率判断 问题是,怎么才能做到最准确的判断?那就要清楚其对信息的计算过程 放大程度:对当前情况和实际的偏差进行放大,用于增强判断,不同的人不一样 阈值:也就是自我保护意识,不同的人程度不一样 公式:(输入-预期)* 放大程度 > 阈值 ? 结论:很多事情比预期的过程要简单,前期判断过于悲观 觉得模电很难,认认真真把书看一遍就豁然开朗,也就化了一个星期 觉得数字图像处理很难...
氛围
这个词首先被用在了编程的领域,很奇怪的是编程本来是一件很精确的工作,追求准确无误的工作,但是“氛围编程”这个词语还是流行起来了, 那么这还是必然的还是无奈? 随着LLM基本搞定自然语言的理解和生成,其将深深改变所有领域的交互方式, 甚至在汽车驾驶领域也是,更别说传统的智能眼镜,玩具,教育设备,家务机器,很多领域因为机器语言能力的突破而重新变得可能。 但是,上面一直说的知识语言能力,这个实际上还不足以产生质变,原因有下 目前的LLM还不足以处理高级的,深层次的含义,特别是在比较长的上下文的输入 没有“...
伊利亚·苏茨克维尔:2025年核心洞见
前OpenAI首席科学家、SSI创始人 为什么AI正在从“Scaling时代”迈入“算法创新”时代? 在旧金山湾区的核心技术圈层,随着计算集群规模的指数级扩张以及模型参数的爆炸式增长,智力过剩的狂热随处可见,仿佛AGI的临界点触手可及。但是伊利亚却敏锐地指出,这种狂热与全球宏观经济的平稳线性之间,存在着无法解释的物理温差。 这背后的原因,正是当前AI模型的根本局限性:它们能够在基准测试中表现出超越人类的智力,却在现实的经济活动中,缺乏完成闭环任务的健壮性。 高分低能的悖论 在实际应用场景中被展现得淋漓尽致。伊利亚以...
Andrej Karpathy 2025年演讲与访谈深度解读:从大语言模型到Agent的演进
OpenAI 前创始成员安德烈·卡帕西(Andrej Karpathy)在2025年的全年演讲与公开访谈。他为我们揭示了 AI 从大语言模型到 Agent 演进的核心逻辑、工程现实与未来路径。 一、核心判断:从代码编写向意图指引的不可逆转折点 首先,我们必须理解一个核心判断:当前的技术界正处在从代码编写向意图指引的不可逆转折点。 英语成为了最高效的编程语言。很多人把大语言模型仅仅当成是一个聊天机器人,这在卡帕西看来是一种严重的认知降维。大语言模型的本质是基于 Transformer 架构的新型计算平台,他将它定义为...
通用Agent的发展
Agent的需求背景 这些本应被封装为「日常AI工作流」的能力,却仍被塞进一个通用聊天框里手工完成。 这正是留给AI创业者的机会,我们不该让普通人用临时脚本搭建自己的「购房智能代理」,而应当创建一个个可复用、可协作、可沉淀的垂直AI应用。这些应用能自动聚合多源文档、动态构建决策知识图谱、实时比对市场数据、生成合规话术建议等。这样的垂直AI应用,以真实生活任务为中心,封装提示工程、记忆管理、多模态上下文维护,从而构建辅助人类做判断的一体化智能工作台。 AI时代的Facebook或Google还尚未创立。当下...
一种理想的智能体编排架构
新架构 生物脑、人脑的组成要素:逻辑能力、长期记忆、短期记忆 长期记忆相当于硬盘,短期记忆相当于内存,计算能力相当ALU 大语言模型相当于语言ALU,KVcache相当于寄存器,权重相当于指令,但是缺少短期记忆和长期记忆 意识主要存在于短期记忆,长期记忆也需要保持自洽性 KVcache:一个不断增长的,被动态调度执行的(通过新prompt)计算器 SSM:固定大小的,不断被更新的状态存储器 外存:长期记忆的存储器,可以被检索和更新 短期临时的记忆维护了当前的意识,信息容量比较固定,不...
理想和现实的距离很短吗?
有个很常见的现象是,很多人有时候觉得,理想和现实的距离非常短, 上一秒还在理想的喜悦中,下一面又感觉认清了现实,没有前途 生理上的原因 大脑是一个非常贪心的机制,第六感,潜意识,总是以最有可能的思维线路进行思考 大脑是一个增益非常大的信息决策机器,意味着振荡,不稳定 大脑无形之中会受到当前的激素水平影响 心理上的原因 喜欢憧憬未来,但是有惧怕压力 喜欢享受美好的,但是又害怕困难 天生的不正常 有些人,可能存在天生的心理和生理上的差异,比如说,胆子大,不考虑后果,犹豫不决 不...
用语言模型处理图像?
不太行,这个方向就有点荒谬(基于当前世界存在的信息基础) 不仅如此,目前流行的具身智能,竟然在尝试从《动作视频-行为描述》的端到端的训练 首先以下几个结论 当前大模型的成功,可以总结为对“自然语言”的成功高效地编解码,也就是有一定的抽象等级 这个的前提是已经有大量的文本数据用于训练 文本的信息量,所蕴含的信息还是比较少的,不像视频,图像有大量的物理特性 图像 尚未成功,至少数据量和抽象层级不够 高级的语义,逻辑,当前模型尚不能进行高效抽象,这就是为什么图形逻辑类评测表现不好的原因 ...
好奇心的底层原理
我们都知道好奇心对于动物的意义,而且也符合达尔文的生物进化理论, 好奇心的生理基础是大脑中多巴胺系统与前额叶皮层的协同作用,形成 “探索→获得信息→奖赏→持续探索” 的正反馈循环。 但是大脑是怎么驱动神经元,来表现出好奇心呢?上面的正反馈过程中的第一步是探索,怎么知道探索了就有可能进入到正循环里面去? 毕竟因为个人的差异,好奇心也不是人人都会有,程度也不尽相同。 猜测: 延迟奖励,奖赏承诺 本能,大脑与心理的“硬编码” 探索的启动并非 “预知” 正循环,而是进化硬编码的「风险收益预判」+ 个体神经...
提示词-prompt-自然语言接口
虽然我认为研究LLM心理学是没有意义的行为,但是更好得让工具为你服务是我的目的 prompt 最好是正面的,不要通过否定的方式来提示,而是采用直接的表达方式 尽量准确,详细得描述要求,举例是一个非常有效的手段 给模型赋予 “专业身份”,直接加强相关领域的权重 分步引导:复杂任务拆分为 “多轮子任务”
VLA & 世界模型
VLA(Vision - Language - Action):视觉 - 语言 - 动作模型 视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头 范式一:端到端训练的单一大模型 视觉编码器、LLM、动作头联合训练 使用大规模的机器人操作数据进行微调。 动作被直接表示为LLM词汇表的一部分(例如,将动作空间离散化为256个“动作词”)。 范式二:高效适配的轻量级架构 冻结预训练好的视觉编码器和LLM 在中间插入一个可训练的多模态适配器 只...
当代LLM智能体的最佳交互方式
智能体的交互,除了对话还有那些,哪种是未来的方向? 对话 对,现在的LLM除了对话,没有别的形式 Chatgpt claude code为代表的编程类助手,本质上也是本地的Agent不断得和LLM进行对话,只不过引入了tools,skills,让对话更可控 cowork openClaw 本质上和人工的交互方式都是在对话 对话是最合理的方式的原因讨论 智能体的那方便的特性决定的 人类最喜欢,最方便的方式 通用来说,除了编程类的助手能看代码,cowork类助手能看屏幕和文件,没有...
Agentic Engineering 智能体编排
只是一个上下文助手-Agent工程化 我们知道当前不管是Code、Cowork 以及 比较火的OpenClaw 等助手类的Agent,不外乎两个特点 所有的自洽和逻辑都只能维持在当前的上下文 上下文可以被动态的追加、压缩、整理、拼接 外挂一些固定的处理接口:Task、SubAgent、Skills、Mcp等等 支持额外的记忆 支持和现有一些软件的控制、执行 MCP 支持现有一些服务的的对接 主要的问题 上下文局限性,决定了不能进行大范围,高深度的思考和自洽 ...
视觉就应该是卷积
先说观点,当前所有的科研人员都研究Transformer去了,但是卷积才是视觉的最高效的特征提取(编码)算法。
私人LLM评测 数据集和结果
背景 小众评测,避免各种开源的测试题目泄漏,数据污染问题 能客观、精确得反映出模型的能力 尽量反映其基础逻辑能力,而不是一些需要特殊数据训练才能获得的能力 镜像文字识别 基于知识类的 分类 对文章进行逻辑分析的测试 逻辑推导:结论,推导,结果,答案,目的 逻辑依赖:原因,证明,背景,理由,条件,要求 逻辑等价:相似 逻辑拆解:包含,分类,示例,解释,补充,修饰,方法 同义句判断 设计一堆的同义句 让AI判断两个句子之间的相似性,进行对比。 ...
AI大行其道,谁最得利?
当前,AI已成为工程师的“能力倍增器”,10倍工程师变成行业的新底线。这导致行业对工程师的要求发生了根本性转变:几乎要求每位工程师都具备架构师的思维与视野。 这种变化带来了双重影响: 对资深工程师是机遇:已有丰富经验的工程师,能借助AI高效地将架构设计直接实现,从而大幅提升产出。他们不再需要依赖初级工程师来完成基础的编码工作,自身就能承担从设计到实现的完整架构师角色。 对年轻工程师是挑战:由于缺乏深厚的业务与架构经验,新手很难有效地指挥AI去搭建符合复杂行业需求的工具,导致其传统的代码能力价值...
卷积计算的测试
下面这个卷积网络,的算力需求大概是多少 Mops , 权重是多少K 个 注意 stride , pooling 以及 深度可分离卷积 的参数 请直接输出一个表格, 输入是 16000 , 分析每一层的输出尺寸 根据你提供的配置参数,这是一个典型的 1D 卷积神经网络(常用于音频原始波形处理)。 conv_dim: Tuple[int, ...] = (8, 16, 32, 64, 128, 256, 16) # Progressive increase to 512 conv...
AI的成与不成
成 作词,做诗 各种视频创作,修改,生成 影视人物的各种修改:关羽弹吉他,刘备拿麦克风 各种名人虚构照片 不成 自动驾驶 人形机器人服务人类 不确定 VLA 理论上具有可行性,但是端到端的模型对数据量/算力提出了很高的要求 视觉会提供完整的视觉信息,手指与物体的gap,手臂的行动方向,自然语言输出 语言作为决策中心,决定下一步的目标 执行器翻译语言到运动控制 根本原因 准确率:99 和 90 的区别 任务的抽象等级和样本数量的对...
Theory of Space
研究人员将 Theory of Space 定义为三个紧密耦合的核心能力: 构建(Construct):在部分可观测的迷雾中主动迈出脚步,收集局部观察,并在内部表征中拼凑出一张全局一致的「认知地图」。 修正(Revise):面对动态环境(如物品被悄悄移位),敏锐察觉「旧记忆」与「新证据」的冲突,打破信念的惯性,完成知识的更新(Belief Revision)。 利用(Exploit):将维护好的认知地图,作为应对复杂下游空间推理任务(如空间导航、视角推演)的最强武器。 本质上...
复杂工程的实践测试
git http://deve.work:3000/colin/kimi-cli.git commit 0442e6dd47c9c6438e34247a994582d966dcfe56 prompt: src/tools/display.py 这个文件会造成tools和其他模块耦合,能不能设计一个抽象,隔离tools和Display的耦合。不应该在 tools文件夹外面感知到类似DiffDisplayBlock, ShellDisplayBlock, TodoDisplayBlock, TodoDispl...