Skip to main content
Advanced Search
Search Terms
Content Type

Exact Matches
Tag Searches
Date Options
Updated after
Updated before
Created after
Created before

Search Results

173 total results found

用语言模型处理图像?

基本问题

不太行,这个方向就有点荒谬(基于当前世界存在的信息基础) 不仅如此,目前流行的具身智能,竟然在尝试从《动作视频-行为描述》的端到端的训练 首先以下几个结论 当前大模型的成功,可以总结为对“自然语言”的成功高效地编解码,也就是有一定的抽象等级 这个的前提是已经有大量的文本数据用于训练 文本的信息量,所蕴含的信息还是比较少的,不像视频,图像有大量的物理特性 图像 尚未成功,至少数据量和抽象层级不够 高级的语义,逻辑,当前模型尚不能进行高效抽象,这就是为什么图形逻辑类评测表现不好的原因 图形最后可能还是要有卷积...

好奇心的底层原理

基本问题

我们都知道好奇心对于动物的意义,而且也符合达尔文的生物进化理论, 好奇心的生理基础是大脑中多巴胺系统与前额叶皮层的协同作用,形成 “探索→获得信息→奖赏→持续探索” 的正反馈循环。 但是大脑是怎么驱动神经元,来表现出好奇心呢?上面的正反馈过程中的第一步是探索,怎么知道探索了就有可能进入到正循环里面去? 毕竟因为个人的差异,好奇心也不是人人都会有,程度也不尽相同。 猜测: 延迟奖励,奖赏承诺 本能,大脑与心理的“硬编码” 探索的启动并非 “预知” 正循环,而是进化硬编码的「风险收益预判」+ 个体神经...

提示词-prompt-自然语言接口

算法&模型

虽然我认为研究LLM心理学是没有意义的行为,但是更好得让工具为你服务是我的目的 prompt 最好是正面的,不要通过否定的方式来提示,而是采用直接的表达方式 尽量准确,详细得描述要求,举例是一个非常有效的手段 给模型赋予 “专业身份”,直接加强相关领域的权重 分步引导:复杂任务拆分为 “多轮子任务”

VLA & 世界模型

算法&模型

VLA(Vision - Language - Action):视觉 - 语言 - 动作模型 视觉编码器 + 语言编码器 -> 多模态融合与推理引擎 -> 动作解码器/头 范式一:端到端训练的单一大模型 视觉编码器、LLM、动作头联合训练 使用大规模的机器人操作数据进行微调。 动作被直接表示为LLM词汇表的一部分(例如,将动作空间离散化为256个“动作词”)。 范式二:高效适配的轻量级架构 冻结预训练好的视觉编码器和LLM 在中间插入一个可训练的多模态适配器 只训练一个轻量级的动作头 ...

当代LLM智能体的最佳交互方式

基本问题

智能体的交互,除了对话还有那些,哪种是未来的方向? 对话 对,现在的LLM除了对话,没有别的形式 Chatgpt claude code为代表的编程类助手,本质上也是本地的Agent不断得和LLM进行对话,只不过引入了tools,skills,让对话更可控 cowork openClaw 本质上和人工的交互方式都是在对话 对话是最合理的方式的原因讨论 智能体的那方便的特性决定的 人类最喜欢,最方便的方式 通用来说,除了编程类的助手能看代码,cowork类助手能看屏幕和文件,没有一种高效的给LLM提供信息的方...

Agentic Engineering 智能体编排

算法&模型 AGI基础方法

只是一个上下文助手-Agent工程化 我们知道当前不管是Code、Cowork 以及 比较火的OpenClaw 等助手类的Agent,不外乎两个特点 所有的自洽和逻辑都只能维持在当前的上下文 上下文可以被动态的追加、压缩、整理、拼接 外挂一些固定的处理接口:Task、SubAgent、Skills、Mcp等等 支持额外的记忆 支持和现有一些软件的控制、执行 MCP 支持现有一些服务的的对接 主要的问题 上下文局限性,决定了不能进行大范围,高深度的思考和自洽 使用有限的上下文处理经过拆分的大范围的...

视觉就应该是卷积

算法&模型

先说观点,当前所有的科研人员都研究Transformer去了,但是卷积才是视觉的最高效的特征提取(编码)算法。

私人LLM评测 数据集和结果

算法&模型 大模型评测

背景 小众评测,避免各种开源的测试题目泄漏,数据污染问题 能客观、精确得反映出模型的能力 尽量反映其基础逻辑能力,而不是一些需要特殊数据训练才能获得的能力 镜像文字识别 基于知识类的 分类 对文章进行逻辑分析的测试 逻辑推导:结论,推导,结果,答案,目的 逻辑依赖:原因,证明,背景,理由,条件,要求 逻辑等价:相似 逻辑拆解:包含,分类,示例,解释,补充,修饰,方法 同义句判断 设计一堆的同义句 让AI判断两个句子之间的相似性,进行对比。 自洽性的评测标准 说对比两个句子的相似性,然后把两...

AI大行其道,谁最得利?

基本问题

当前,AI已成为工程师的“能力倍增器”,10倍工程师变成行业的新底线。这导致行业对工程师的要求发生了根本性转变:几乎要求每位工程师都具备架构师的思维与视野。 这种变化带来了双重影响: 对资深工程师是机遇:已有丰富经验的工程师,能借助AI高效地将架构设计直接实现,从而大幅提升产出。他们不再需要依赖初级工程师来完成基础的编码工作,自身就能承担从设计到实现的完整架构师角色。 对年轻工程师是挑战:由于缺乏深厚的业务与架构经验,新手很难有效地指挥AI去搭建符合复杂行业需求的工具,导致其传统的代码能力价值下降,起步更为艰难。...

卷积计算的测试

算法&模型 大模型评测

下面这个卷积网络,的算力需求大概是多少 Mops , 权重是多少K 个 注意 stride , pooling 以及 深度可分离卷积 的参数 请直接输出一个表格, 输入是 16000 , 分析每一层的输出尺寸 根据你提供的配置参数,这是一个典型的 1D 卷积神经网络(常用于音频原始波形处理)。 conv_dim: Tuple[int, ...] = (8, 16, 32, 64, 128, 256, 16) # Progressive increase to 512 conv...

AI的成与不成

基本问题

成 作词,做诗 各种视频创作,修改,生成 影视人物的各种修改:关羽弹吉他,刘备拿麦克风 各种名人虚构照片 不成 自动驾驶 人形机器人服务人类 不确定 VLA 理论上具有可行性,但是端到端的模型对数据量/算力提出了很高的要求 视觉会提供完整的视觉信息,手指与物体的gap,手臂的行动方向,自然语言输出 语言作为决策中心,决定下一步的目标 执行器翻译语言到运动控制 根本原因 准确率:99 和 90 的区别 任务的抽象等级和样本数量的对比

Theory of Space

基本问题

研究人员将 Theory of Space 定义为三个紧密耦合的核心能力: 构建(Construct):在部分可观测的迷雾中主动迈出脚步,收集局部观察,并在内部表征中拼凑出一张全局一致的「认知地图」。 修正(Revise):面对动态环境(如物品被悄悄移位),敏锐察觉「旧记忆」与「新证据」的冲突,打破信念的惯性,完成知识的更新(Belief Revision)。 利用(Exploit):将维护好的认知地图,作为应对复杂下游空间推理任务(如空间导航、视角推演)的最强武器。 本质上...

复杂工程的实践测试

算法&模型 大模型评测

git : http://deve.work:33333/colin/mde.git commit : c61827061d6a34cbd2ca2fae62b59fcb780f192e prompt : 在vscode里面打开一个markdown非常慢,每次打开一个文件都要白屏很久 fix commit : 3e64dfab0643fecc583bb1e77467373d7e43854e 答案: Lute 双重加载 (3.8MB) 之前的代码在 <script> 的 onload 回调里才设 id="vdito...

人脑的推理模型

算法&模型 人脑的仿真

神经元 可以被输入激活,激活后可以激活其他的连接的神经元 记忆区神经元 大部分时间是静息状态 逻辑推理神经元 视觉识别、语音识别,皮肤传感器等,人脸识别等等 正向,顺序激活,快速,没有递归 规划神经元 一团细胞,反复递归的激活,循环 区域 短路径,高并行 小脑,视觉识别 大量的边缘分布 记忆的节点 状态区 一堆的能主动激活其他人的细胞组成的临时记忆区,就是意识的本体 大量连接了记忆区的节点,一个连接多个,可以根据当前其他的状态进行动态的选择,从而表示一个临时的状态 比如,...

无所畏惧

基本问题

无所畏惧、没有牵挂、不再害怕 这个可能是人生追求的最终形态 不管是通过和自己和解,还是世界和你和解,最终的目的总是“和解“ 大脑的本能,不能克服的本能,就是根据当前的所有状态,决定下一步的行动。 不管是长期目标,还是短期,不管是一时意气用事,还是缜密决策 因为人是存在自我意识的,“自我“就是你的目标,“人性“只不过是行动的原则。 唯心主义的顶峰就是和“自我“和解 一旦还有没有解决的问题,内心就会产生恐惧 所以,不要想那么多,好好得处理好你的自我需求,实在不行,就换个方式,反正所有人的最高境界其实都一...

达克效应

基本问题

“无知要比博学更容易产生自信。”查尔斯·达尔文的这句名言,可以说是对达克效应最精准的概括。 达克效应(Dunning-Kruger Effect)是由心理学家大卫·邓宁(David Dunning)和贾斯汀·克鲁格(Justin Kruger)在1999年提出的一种认知偏差现象。它描述了一个反直觉的残酷现实:在某一领域能力欠缺的人,往往会产生一种虚幻的自我优越感,错误地高估自己的认知水平和能力;而真正的专家,反而常常会低估自己的能力。 Shutterstock 这种现象最直观的体现就是那条著名的认知曲线。初学者在掌...

人脑的本能

算法&模型 人脑的仿真

1. 最底层的“目标函数”:生存与节能 (Survival & Energy Efficiency) 生物脑的一切高级功能都服从于这个终极指令。大脑只占人体重量的 2%,却消耗了 20% 的能量。因此,大脑极其“吝啬”计算资源。 本能体现: 习惯化(把重复动作固化到潜意识以节省算力)、避免认知失调,以及在非必要时倾向于使用“直觉”而非“深度逻辑”。 2. 情绪机制 (The Reward / Loss Function) 在有逻辑之前,大脑先有情绪。情绪是大脑用来快速评估环境并做出反应的全局权重参数。 情绪是一...

智能体

算法&模型