Advanced Search
Search Results
173 total results found
用语言模型处理图像?
不太行,这个方向就有点荒谬(基于当前世界存在的信息基础) 不仅如此,目前流行的具身智能,竟然在尝试从《动作视频-行为描述》的端到端的训练 首先以下几个结论 当前大模型的成功,可以总结为对“自然语言”的成功高效地编解码,也就是有一定的抽象等级 这个的前提是已经有大量的文本数据用于训练 文本的信息量,所蕴含的信息还是比较少的,不像视频,图像有大量的物理特性 图像 尚未成功,至少数据量和抽象层级不够 高级的语义,逻辑,当前模型尚不能进行高效抽象,这就是为什么图形逻辑类评测表现不好的原因 图形最后可能还是要有卷积...
好奇心的底层原理
我们都知道好奇心对于动物的意义,而且也符合达尔文的生物进化理论, 好奇心的生理基础是大脑中多巴胺系统与前额叶皮层的协同作用,形成 “探索→获得信息→奖赏→持续探索” 的正反馈循环。 但是大脑是怎么驱动神经元,来表现出好奇心呢?上面的正反馈过程中的第一步是探索,怎么知道探索了就有可能进入到正循环里面去? 毕竟因为个人的差异,好奇心也不是人人都会有,程度也不尽相同。 猜测: 延迟奖励,奖赏承诺 本能,大脑与心理的“硬编码” 探索的启动并非 “预知” 正循环,而是进化硬编码的「风险收益预判」+ 个体神经...
提示词-prompt-自然语言接口
虽然我认为研究LLM心理学是没有意义的行为,但是更好得让工具为你服务是我的目的 prompt 最好是正面的,不要通过否定的方式来提示,而是采用直接的表达方式 尽量准确,详细得描述要求,举例是一个非常有效的手段 给模型赋予 “专业身份”,直接加强相关领域的权重 分步引导:复杂任务拆分为 “多轮子任务”
VLA & 世界模型
VLA(Vision - Language - Action):视觉 - 语言 - 动作模型 视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头 范式一:端到端训练的单一大模型 视觉编码器、LLM、动作头联合训练 使用大规模的机器人操作数据进行微调。 动作被直接表示为LLM词汇表的一部分(例如,将动作空间离散化为256个“动作词”)。 范式二:高效适配的轻量级架构 冻结预训练好的视觉编码器和LLM 在中间插入一个可训练的多模态适配器 只训练一个轻量级的动作头 ...
当代LLM智能体的最佳交互方式
智能体的交互,除了对话还有那些,哪种是未来的方向? 对话 对,现在的LLM除了对话,没有别的形式 Chatgpt claude code为代表的编程类助手,本质上也是本地的Agent不断得和LLM进行对话,只不过引入了tools,skills,让对话更可控 cowork openClaw 本质上和人工的交互方式都是在对话 对话是最合理的方式的原因讨论 智能体的那方便的特性决定的 人类最喜欢,最方便的方式 通用来说,除了编程类的助手能看代码,cowork类助手能看屏幕和文件,没有一种高效的给LLM提供信息的方...
Agentic Engineering 智能体编排
只是一个上下文助手-Agent工程化 我们知道当前不管是Code、Cowork 以及 比较火的OpenClaw 等助手类的Agent,不外乎两个特点 所有的自洽和逻辑都只能维持在当前的上下文 上下文可以被动态的追加、压缩、整理、拼接 外挂一些固定的处理接口:Task、SubAgent、Skills、Mcp等等 支持额外的记忆 支持和现有一些软件的控制、执行 MCP 支持现有一些服务的的对接 主要的问题 上下文局限性,决定了不能进行大范围,高深度的思考和自洽 使用有限的上下文处理经过拆分的大范围的...
视觉就应该是卷积
先说观点,当前所有的科研人员都研究Transformer去了,但是卷积才是视觉的最高效的特征提取(编码)算法。
私人LLM评测 数据集和结果
背景 小众评测,避免各种开源的测试题目泄漏,数据污染问题 能客观、精确得反映出模型的能力 尽量反映其基础逻辑能力,而不是一些需要特殊数据训练才能获得的能力 镜像文字识别 基于知识类的 分类 对文章进行逻辑分析的测试 逻辑推导:结论,推导,结果,答案,目的 逻辑依赖:原因,证明,背景,理由,条件,要求 逻辑等价:相似 逻辑拆解:包含,分类,示例,解释,补充,修饰,方法 同义句判断 设计一堆的同义句 让AI判断两个句子之间的相似性,进行对比。 自洽性的评测标准 说对比两个句子的相似性,然后把两...
AI大行其道,谁最得利?
当前,AI已成为工程师的“能力倍增器”,10倍工程师变成行业的新底线。这导致行业对工程师的要求发生了根本性转变:几乎要求每位工程师都具备架构师的思维与视野。 这种变化带来了双重影响: 对资深工程师是机遇:已有丰富经验的工程师,能借助AI高效地将架构设计直接实现,从而大幅提升产出。他们不再需要依赖初级工程师来完成基础的编码工作,自身就能承担从设计到实现的完整架构师角色。 对年轻工程师是挑战:由于缺乏深厚的业务与架构经验,新手很难有效地指挥AI去搭建符合复杂行业需求的工具,导致其传统的代码能力价值下降,起步更为艰难。...
卷积计算的测试
下面这个卷积网络,的算力需求大概是多少 Mops , 权重是多少K 个 注意 stride , pooling 以及 深度可分离卷积 的参数 请直接输出一个表格, 输入是 16000 , 分析每一层的输出尺寸 根据你提供的配置参数,这是一个典型的 1D 卷积神经网络(常用于音频原始波形处理)。 conv_dim: Tuple[int, ...] = (8, 16, 32, 64, 128, 256, 16) # Progressive increase to 512 conv...
AI的成与不成
成 作词,做诗 各种视频创作,修改,生成 影视人物的各种修改:关羽弹吉他,刘备拿麦克风 各种名人虚构照片 不成 自动驾驶 人形机器人服务人类 不确定 VLA 理论上具有可行性,但是端到端的模型对数据量/算力提出了很高的要求 视觉会提供完整的视觉信息,手指与物体的gap,手臂的行动方向,自然语言输出 语言作为决策中心,决定下一步的目标 执行器翻译语言到运动控制 根本原因 准确率:99 和 90 的区别 任务的抽象等级和样本数量的对比
Theory of Space
研究人员将 Theory of Space 定义为三个紧密耦合的核心能力: 构建(Construct):在部分可观测的迷雾中主动迈出脚步,收集局部观察,并在内部表征中拼凑出一张全局一致的「认知地图」。 修正(Revise):面对动态环境(如物品被悄悄移位),敏锐察觉「旧记忆」与「新证据」的冲突,打破信念的惯性,完成知识的更新(Belief Revision)。 利用(Exploit):将维护好的认知地图,作为应对复杂下游空间推理任务(如空间导航、视角推演)的最强武器。 本质上...
复杂工程的实践测试
git : http://deve.work:33333/colin/mde.git commit : c61827061d6a34cbd2ca2fae62b59fcb780f192e prompt : 在vscode里面打开一个markdown非常慢,每次打开一个文件都要白屏很久 fix commit : 3e64dfab0643fecc583bb1e77467373d7e43854e 答案: Lute 双重加载 (3.8MB) 之前的代码在 <script> 的 onload 回调里才设 id="vdito...
人脑的推理模型
神经元 可以被输入激活,激活后可以激活其他的连接的神经元 记忆区神经元 大部分时间是静息状态 逻辑推理神经元 视觉识别、语音识别,皮肤传感器等,人脸识别等等 正向,顺序激活,快速,没有递归 规划神经元 一团细胞,反复递归的激活,循环 区域 短路径,高并行 小脑,视觉识别 大量的边缘分布 记忆的节点 状态区 一堆的能主动激活其他人的细胞组成的临时记忆区,就是意识的本体 大量连接了记忆区的节点,一个连接多个,可以根据当前其他的状态进行动态的选择,从而表示一个临时的状态 比如,...
无所畏惧
无所畏惧、没有牵挂、不再害怕 这个可能是人生追求的最终形态 不管是通过和自己和解,还是世界和你和解,最终的目的总是“和解“ 大脑的本能,不能克服的本能,就是根据当前的所有状态,决定下一步的行动。 不管是长期目标,还是短期,不管是一时意气用事,还是缜密决策 因为人是存在自我意识的,“自我“就是你的目标,“人性“只不过是行动的原则。 唯心主义的顶峰就是和“自我“和解 一旦还有没有解决的问题,内心就会产生恐惧 所以,不要想那么多,好好得处理好你的自我需求,实在不行,就换个方式,反正所有人的最高境界其实都一...
达克效应
“无知要比博学更容易产生自信。”查尔斯·达尔文的这句名言,可以说是对达克效应最精准的概括。 达克效应(Dunning-Kruger Effect)是由心理学家大卫·邓宁(David Dunning)和贾斯汀·克鲁格(Justin Kruger)在1999年提出的一种认知偏差现象。它描述了一个反直觉的残酷现实:在某一领域能力欠缺的人,往往会产生一种虚幻的自我优越感,错误地高估自己的认知水平和能力;而真正的专家,反而常常会低估自己的能力。 Shutterstock 这种现象最直观的体现就是那条著名的认知曲线。初学者在掌...
人脑的本能
1. 最底层的“目标函数”:生存与节能 (Survival & Energy Efficiency) 生物脑的一切高级功能都服从于这个终极指令。大脑只占人体重量的 2%,却消耗了 20% 的能量。因此,大脑极其“吝啬”计算资源。 本能体现: 习惯化(把重复动作固化到潜意识以节省算力)、避免认知失调,以及在非必要时倾向于使用“直觉”而非“深度逻辑”。 2. 情绪机制 (The Reward / Loss Function) 在有逻辑之前,大脑先有情绪。情绪是大脑用来快速评估环境并做出反应的全局权重参数。 情绪是一...