Skip to main content
Advanced Search
Search Terms
Content Type

Exact Matches
Tag Searches
Date Options
Updated after
Updated before
Created after
Created before

Search Results

158 total results found

预期的错位和偏差

基本问题

人类对你自己的预期认知会存在错误和偏差 输入:当前或者过往的经验提出出来的对未来判断的有用的资讯 预期:你对未来某件事成功的概率判断 问题是,怎么才能做到最准确的判断?那就要清楚其对信息的计算过程 放大程度:对当前情况和实际的偏差进行放大,用于增强判断,不同的人不一样 阈值:也就是自我保护意识,不同的人程度不一样 公式:(输入-预期)* 放大程度 > 阈值 ? 结论:很多事情比预期的过程要简单,前期判断过于悲观 觉得模电很难,认认真真把书看一遍就豁然开朗,也就化了一个星期 觉得数字图像处理很难...

氛围

基本问题

这个词首先被用在了编程的领域,很奇怪的是编程本来是一件很精确的工作,追求准确无误的工作,但是“氛围编程”这个词语还是流行起来了, 那么这还是必然的还是无奈? 随着LLM基本搞定自然语言的理解和生成,其将深深改变所有领域的交互方式, 甚至在汽车驾驶领域也是,更别说传统的智能眼镜,玩具,教育设备,家务机器,很多领域因为机器语言能力的突破而重新变得可能。 但是,上面一直说的知识语言能力,这个实际上还不足以产生质变,原因有下 目前的LLM还不足以处理高级的,深层次的含义,特别是在比较长的上下文的输入 没有“...

伊利亚·苏茨克维尔:2025年核心洞见

算法&模型

前OpenAI首席科学家、SSI创始人 为什么AI正在从“Scaling时代”迈入“算法创新”时代? 在旧金山湾区的核心技术圈层,随着计算集群规模的指数级扩张以及模型参数的爆炸式增长,智力过剩的狂热随处可见,仿佛AGI的临界点触手可及。但是伊利亚却敏锐地指出,这种狂热与全球宏观经济的平稳线性之间,存在着无法解释的物理温差。 这背后的原因,正是当前AI模型的根本局限性:它们能够在基准测试中表现出超越人类的智力,却在现实的经济活动中,缺乏完成闭环任务的健壮性。 高分低能的悖论 在实际应用场景中被展现得淋漓尽致。伊利亚以...

Andrej Karpathy 2025年演讲与访谈深度解读:从大语言模型到Agent的演进

算法&模型

OpenAI 前创始成员安德烈·卡帕西(Andrej Karpathy)在2025年的全年演讲与公开访谈。他为我们揭示了 AI 从大语言模型到 Agent 演进的核心逻辑、工程现实与未来路径。 一、核心判断:从代码编写向意图指引的不可逆转折点 首先,我们必须理解一个核心判断:当前的技术界正处在从代码编写向意图指引的不可逆转折点。 英语成为了最高效的编程语言。很多人把大语言模型仅仅当成是一个聊天机器人,这在卡帕西看来是一种严重的认知降维。大语言模型的本质是基于 Transformer 架构的新型计算平台,他将它定义为...

通用Agent的发展

算法&模型 AGI基础方法

Agent的需求背景 这些本应被封装为「日常AI工作流」的能力,却仍被塞进一个通用聊天框里手工完成。 这正是留给AI创业者的机会,我们不该让普通人用临时脚本搭建自己的「购房智能代理」,而应当创建一个个可复用、可协作、可沉淀的垂直AI应用。这些应用能自动聚合多源文档、动态构建决策知识图谱、实时比对市场数据、生成合规话术建议等。这样的垂直AI应用,以真实生活任务为中心,封装提示工程、记忆管理、多模态上下文维护,从而构建辅助人类做判断的一体化智能工作台。 AI时代的Facebook或Google还尚未创立。当下...

一种理想的智能体编排架构

算法&模型 AGI基础方法

新架构 生物脑、人脑的组成要素:逻辑能力、长期记忆、短期记忆 长期记忆相当于硬盘,短期记忆相当于内存,计算能力相当ALU 大语言模型相当于语言ALU,KVcache相当于寄存器,权重相当于指令,但是缺少短期记忆和长期记忆 意识主要存在于短期记忆,长期记忆也需要保持自洽性 KVcache:一个不断增长的,被动态调度执行的(通过新prompt)计算器 SSM:固定大小的,不断被更新的状态存储器 外存:长期记忆的存储器,可以被检索和更新 短期临时的记忆维护了当前的意识,信息容量比较固定,不...

理想和现实的距离很短吗?

基本问题

有个很常见的现象是,很多人有时候觉得,理想和现实的距离非常短, 上一秒还在理想的喜悦中,下一面又感觉认清了现实,没有前途 生理上的原因 大脑是一个非常贪心的机制,第六感,潜意识,总是以最有可能的思维线路进行思考 大脑是一个增益非常大的信息决策机器,意味着振荡,不稳定 大脑无形之中会受到当前的激素水平影响 心理上的原因 喜欢憧憬未来,但是有惧怕压力 喜欢享受美好的,但是又害怕困难 天生的不正常 有些人,可能存在天生的心理和生理上的差异,比如说,胆子大,不考虑后果,犹豫不决 不...

用语言模型处理图像?

基本问题

不太行,这个方向就有点荒谬(基于当前世界存在的信息基础) 不仅如此,目前流行的具身智能,竟然在尝试从《动作视频-行为描述》的端到端的训练 首先以下几个结论 当前大模型的成功,可以总结为对“自然语言”的成功高效地编解码,也就是有一定的抽象等级 这个的前提是已经有大量的文本数据用于训练 文本的信息量,所蕴含的信息还是比较少的,不像视频,图像有大量的物理特性 图像 尚未成功,至少数据量和抽象层级不够 高级的语义,逻辑,当前模型尚不能进行高效抽象,这就是为什么图形逻辑类评测表现不好的原因 ...

好奇心的底层原理

基本问题

我们都知道好奇心对于动物的意义,而且也符合达尔文的生物进化理论, 好奇心的生理基础是大脑中多巴胺系统与前额叶皮层的协同作用,形成 “探索→获得信息→奖赏→持续探索” 的正反馈循环。 但是大脑是怎么驱动神经元,来表现出好奇心呢?上面的正反馈过程中的第一步是探索,怎么知道探索了就有可能进入到正循环里面去? 毕竟因为个人的差异,好奇心也不是人人都会有,程度也不尽相同。 猜测: 延迟奖励,奖赏承诺 本能,大脑与心理的“硬编码” 探索的启动并非 “预知” 正循环,而是进化硬编码的「风险收益预判」+ 个体神经...

提示词-prompt-自然语言接口

算法&模型

虽然我认为研究LLM心理学是没有意义的行为,但是更好得让工具为你服务是我的目的 prompt 最好是正面的,不要通过否定的方式来提示,而是采用直接的表达方式 尽量准确,详细得描述要求,举例是一个非常有效的手段 给模型赋予 “专业身份”,直接加强相关领域的权重 分步引导:复杂任务拆分为 “多轮子任务”

VLA & 世界模型

算法&模型

VLA(Vision - Language - Action):视觉 - 语言 - 动作模型 视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头 范式一:端到端训练的单一大模型 视觉编码器、LLM、动作头联合训练 使用大规模的机器人操作数据进行微调。 动作被直接表示为LLM词汇表的一部分(例如,将动作空间离散化为256个“动作词”)。 范式二:高效适配的轻量级架构 冻结预训练好的视觉编码器和LLM 在中间插入一个可训练的多模态适配器 只...

当代LLM智能体的最佳交互方式

基本问题

智能体的交互,除了对话还有那些,哪种是未来的方向? 对话 对,现在的LLM除了对话,没有别的形式 Chatgpt claude code为代表的编程类助手,本质上也是本地的Agent不断得和LLM进行对话,只不过引入了tools,skills,让对话更可控 cowork  openClaw  本质上和人工的交互方式都是在对话 对话是最合理的方式的原因讨论 智能体的那方便的特性决定的 人类最喜欢,最方便的方式 通用来说,除了编程类的助手能看代码,cowork类助手能看屏幕和文件,没有...

Agentic Engineering 智能体编排

算法&模型 AGI基础方法

只是一个上下文助手-Agent工程化 我们知道当前不管是Code、Cowork 以及 比较火的OpenClaw 等助手类的Agent,不外乎两个特点 所有的自洽和逻辑都只能维持在当前的上下文 上下文可以被动态的追加、压缩、整理、拼接 外挂一些固定的处理接口:Task、SubAgent、Skills、Mcp等等 支持额外的记忆 支持和现有一些软件的控制、执行 MCP 支持现有一些服务的的对接 主要的问题 上下文局限性,决定了不能进行大范围,高深度的思考和自洽 ...

视觉就应该是卷积

算法&模型

先说观点,当前所有的科研人员都研究Transformer去了,但是卷积才是视觉的最高效的特征提取(编码)算法。

私人LLM评测 数据集和结果

算法&模型 大模型评测

背景 小众评测,避免各种开源的测试题目泄漏,数据污染问题 能客观、精确得反映出模型的能力 尽量反映其基础逻辑能力,而不是一些需要特殊数据训练才能获得的能力 镜像文字识别 基于知识类的 分类 对文章进行逻辑分析的测试 逻辑推导:结论,推导,结果,答案,目的 逻辑依赖:原因,证明,背景,理由,条件,要求 逻辑等价:相似 逻辑拆解:包含,分类,示例,解释,补充,修饰,方法 同义句判断 设计一堆的同义句 让AI判断两个句子之间的相似性,进行对比。   ...

AI大行其道,谁最得利?

基本问题

当前,AI已成为工程师的“能力倍增器”,10倍工程师变成行业的新底线。这导致行业对工程师的要求发生了根本性转变:几乎要求每位工程师都具备架构师的思维与视野。 这种变化带来了双重影响: 对资深工程师是机遇:已有丰富经验的工程师,能借助AI高效地将架构设计直接实现,从而大幅提升产出。他们不再需要依赖初级工程师来完成基础的编码工作,自身就能承担从设计到实现的完整架构师角色。 对年轻工程师是挑战:由于缺乏深厚的业务与架构经验,新手很难有效地指挥AI去搭建符合复杂行业需求的工具,导致其传统的代码能力价值...

卷积计算的测试

算法&模型 大模型评测

下面这个卷积网络,的算力需求大概是多少 Mops , 权重是多少K 个 注意 stride , pooling 以及 深度可分离卷积 的参数 请直接输出一个表格, 输入是 16000 , 分析每一层的输出尺寸 根据你提供的配置参数,这是一个典型的 1D 卷积神经网络(常用于音频原始波形处理)。 conv_dim: Tuple[int, ...] = (8, 16, 32, 64, 128, 256, 16) # Progressive increase to 512 conv...

AI的成与不成

基本问题

成 作词,做诗 各种视频创作,修改,生成 影视人物的各种修改:关羽弹吉他,刘备拿麦克风 各种名人虚构照片 不成 自动驾驶 人形机器人服务人类 不确定 VLA 理论上具有可行性,但是端到端的模型对数据量/算力提出了很高的要求 视觉会提供完整的视觉信息,手指与物体的gap,手臂的行动方向,自然语言输出 语言作为决策中心,决定下一步的目标 执行器翻译语言到运动控制 根本原因 准确率:99 和 90 的区别 任务的抽象等级和样本数量的对...

Theory of Space

基本问题

研究人员将 Theory of Space 定义为三个紧密耦合的核心能力: 构建(Construct):在部分可观测的迷雾中主动迈出脚步,收集局部观察,并在内部表征中拼凑出一张全局一致的「认知地图」。 修正(Revise):面对动态环境(如物品被悄悄移位),敏锐察觉「旧记忆」与「新证据」的冲突,打破信念的惯性,完成知识的更新(Belief Revision)。 利用(Exploit):将维护好的认知地图,作为应对复杂下游空间推理任务(如空间导航、视角推演)的最强武器。 本质上...

复杂工程的实践测试

算法&模型 大模型评测

git  http://deve.work:3000/colin/kimi-cli.git commit 0442e6dd47c9c6438e34247a994582d966dcfe56 prompt: src/tools/display.py 这个文件会造成tools和其他模块耦合,能不能设计一个抽象,隔离tools和Display的耦合。不应该在 tools文件夹外面感知到类似DiffDisplayBlock, ShellDisplayBlock, TodoDisplayBlock, TodoDispl...