基本问题
- 命名
- 抽象
- 理解《思考,快与慢》
- 形象思维
- 哲学观点
- 损有余而补不足
- 通用的抽象
- 光学镜头和涡轮喷气发动机的区别
- 工作方法学
- 架构的力量
- 数学理解
- 第一性原理及公理化思维
- LLM心理行为学的研究
- 生命和AGI的开发
- 人类社交的更高层次的需求
- 结构化表达的方式和方法--金字塔
- 昂贵的共识
- 太快和太慢
- 完美复制一个我,那还是我吗?
- AI的效果悖论/骗局
- 研究型团队的组织方法思考
- 氛围编程 AI Coding
- 预期的错位和偏差
- 氛围
- 理想和现实的距离很短吗?
- 用语言模型处理图像?
- 好奇心的底层原理
- 当代LLM智能体的最佳交互方式
- AI大行其道,谁最得利?
- Theory of Space
- 无所畏惧
- 达克效应
- AI 影响下的工程开发流程
- AI的效果悖论_骗局
- AI影响下的工程开发的提示
- 终极意义
- AI交互和头脑风暴
- AI的中文表达问题
- 数学的意义
- 人脑工作的一个有趣机制_提纲
- AI需要明确的信息
- 直觉并不落后_合并提纲
命名
命名的重要性
- 好的设计从命名开始
- 研究表明,最优秀的设计师会设计出更快、更小、更简单的结构,而且设计过程也更轻松。伟大的结构和一般的结构之间差了一个数量级——Fred Brooks,Jr.,1986
简洁
- 过度点缀
- 明确所在的前提,背景,范围
- 在test 文件夹里面的xxx_test.cpp 里面定义一个 class xxx_test,这里的文件名和类的test是多余的
- 在cmake里面定义一个测试可以命名成 xxx_test ,这里的test不多余,因为平行的有 xxx
- 明确所在的前提,背景,范围
- 过度设计
- 定义太多不必要的抽象、名词
- 会给使用者/阅读者造成难度和压力
- 命名空间、类(面向对象)的组织要有一定的层级和明确的结构关系
- 统一前后的名词
- 同一种事物/抽象/表示,在所有的地方使用一个名字,大小写和命名规则也一致
- cpu_state cpu_states cpu_s c_state cs
- 同一种事物/抽象/表示,在所有的地方使用一个名字,大小写和命名规则也一致
- 定义太多不必要的抽象、名词
- 不良设计
- 歧义
- 片面
- class KimiSoul: # The soul of Kimi Code CLI. 应该采用 Core,Base 更能表示其作用,而不是采用比喻性概念
设计
- 通过命名引导读者理解设计意图
- auto cpu53 = A53(); auto cpu45 = A45(); cpu53和cpu45明确引导读者,这都是cpu只不过对应不同的类型。
- 多单词命名的合理排序
- BreakpointInsert BreakpointRemove BreakpointRemoveAll
- InsertBreakpoint RemoveBreakpoint RemoveAllBreakpoint
- 代码/函数 的位置选择
- #define Trace xxx 是trace功能的一部分,虽然可以放到任意其他的地方,但是最好是所有的trace相关的代码放一起
怎么在团队内统一命名规则
- 制定规则和培训
抽象
理解《思考,快与慢》
卡尼曼如此形容两大思考模式
**系统一:**自动化的运作,非常快、不费力气,即使要费力,也很少,它不受自主控制。以下为系统一的工作内容,大致依复杂度排序如下:
-
- 判断一个物体较另一个物体距离自己更远。
- 判断一个声音来源的位置。
- 接续完成“战争与……”("War and......")这个词组。(战争与和平,英语:War and peace)
- 当看到一张可怕的图片时,做出厌恶的表情。
- 回答 2 + 2 = ?
- 阅读大型广告看板上的文字。
- 在没有车辆的道路上开车。
- 在棋局中发现一条好路(如果你是国际象棋大师的话)。
- 理解简单的句子。
- 在读到“一个温和、整洁、很注意细节的人”这一描述时联想到某种职业。
- 判断一个物体较另一个物体距离自己更远。
**系统二:**动用到注意力去做费力的心智活动,包括复杂的计算。系统二的运作通常都跟代理人、选择和专注力的主观经验有关。以下为系统二的工作内容:
大脑确实好像存在两种系统,更像演化的结果,为了平衡效率和智力的结果,两种思考模式会相互转换
- 本书的第二章解释人们如何缺乏统计思维。本章的开头便列举出多种情况下,人们倾向于做出二元式的决策或不能够准确地判断各种结果发生的几率。
人类确实存在贪心思维,尽快做出二元决策,但是这个是为了思考效率,而且系统二其实一直在验证决策的正确性,只要有足够的时间,系统二会主动纠正错误。
人类可以通过系统一快速的通过对比概率形成决策,也就是第六感,而且这个精度大概可以达到1/200的精度。
- 卡尼曼用捷思法的观点解释系统一是如何倾向于从既有的模式或思维中组织新的资讯,而不是根据每一新的经验创造出新的模式:一名在过去只看过多边形的孩童在第一次看到圆形的时候,可能会将圆形视为八边形
- 人脑具有意识,意识的本质是在维护一个自洽的逻辑链
- 一旦已经被认定是正确的事实很难被更改
- 更改需要同时修正所有依赖这个观点的其他逻辑
- 人脑会自动的实时根据输入判断信息有没有矛盾,即是否自洽
- 生物脑为了效率,会尽量的维护一个具有紧密逻辑关系的思维链
- 如果能用现有的思维逻辑进行判断/表达,不会为了一个单点信息创造一个新的逻辑关系
锚定效应:人类在进行决策时,会过度偏重先前取得的资讯(这称为锚点),即使这个资讯与这项决定无关。在进行决策时,人类倾向于利用此片断资讯(锚点),快速做出决定。在接下来的决定中,再以第一个决定为基准,逐步修正。但是人类容易过度利用锚点,来对其他资讯与决定做出诠释,当锚点与实际上的事实之间的有很大出入,就会出现当局者迷的情况。
假设A店和B店都陈列完全一样的三千五百日圆混装饼干。A店主要是卖一千日圆左右的饼干为主,所以客人看到三千五百日圆的商品,会觉得“贵”。但是B店大多是卖价格在五千日圆上下的饼干,看到三千五百日圆的混装饼干,会觉得“便宜”。
人类在对一个事物缺乏信息的时候,会以接收到的第一个信息作为锚点作为基准
当人们因为想起某一事件时能够轻易联想到相关的案例,而认为该事件发生的几率较其他事件高时,则陷入可得性捷思法的认知偏误
对于概率的判断在没有相关信息的时候,都会依据现有信息直接给出自己的判断,贪心思维的体现
属性替代:当人们面对一个复杂的问题时没能立即找到满意的答案,系统一倾向于用简单的问题将复杂的问题替代。
贪心思维的体现
乐观偏见与损失规避
自我保护的心里,更倾向于对自己有利的结果,抑郁症患者则相反,所以是受激素水平控制?
框架效应指人们被问及相同的问题但不同的描述时,人们会选择乍听之下较有利或顺耳的描述作为方案。举例而言,当受试者被问到是否愿意手术治疗时,被告知存活率为90%的受试者会较被告知死亡率为10%的受试者更愿意承担风险,尽管两者的风险完全相同
下意识的判断逻辑有一定的倾向性,可能是根据接触的世界事物的统计结果产生
沉没成本:人们往往不愿意正视持续增加投资未必会带来更多回报的事实,而选择铤而走险地持续对过去投资失败的项目增资,以逃避过去投资失败带来的反悔心理
过度自信
展望理论:长久以来,主流经济学都假设每个人作决定时都是“理性”的,然而现实情况并不如此;展望理论加入了人们对得失、发生概率高低等条件的不对称心理效用,成功解释了许多看来不理性的现象。
两种自我分别为“体验自我”和“记忆自我”
思考人生规划:当人们在思考人生当中的一件事情时,在思考的当下会高估该单一事件于一生当中的实际影响。
形象思维
形象思维并不仅仅属于艺术家,它也是科学家进行科学发现和创造的一种重要的思维形式。例如,物理学中所有的形象模型,像电力线、磁力线、原子结构的汤姆生模型或卢瑟福小太阳系模型,都是物理学家抽象思维和形象思维结合的产物。 爱因斯坦是一个具有极其深刻的逻辑思维能力的大师,但他却反对把逻辑方法视为唯一的科学方法,他十分善于发挥形象思维的自由创造力,他所构思的种种理想化实验就是运用形象思维的典型范例。这些理想化实验并不是对具体的事例运用抽象化的方法,舍弃现象,抽取本质,而是运用形象思维的方法,将表现一般、本质的现象加以保留,并使之得到集中和强化。爱因斯坦著名的广义相对论的创立实际上就是起源于一个自由的想象。
哲学观点
哲学的本质本身就是一个哲学问题
胡适的描述是:凡研究人生切要的问题,从根本上着想,要寻一个根本的解决:这种学问叫做哲学
对哲学的主题亦存在许多看法。一些人认为哲学是对问题本身过程的观察。^{[15]}
- 后现代主义把哲学定义为创造概念的学术。
- 哲学所涉及的研究范畴是其它学科的总和,它给出对世界本质的解释,在很大程度上影响着接受者的世界观。
- 哲学是研究范畴及其相互关系的一门学问。范畴涉及到一门学科的最基本的定义、概念和内容,哲学具有一般方法论的功能。
- 哲学和其他陈述问题方法的差异是有批判性的、有代入问题的方法以及以理性为答案的辩论。
- 社会的科技进步方向是全社会无数实践的成果,是众多科学家达成的共识
- 技术进步越复杂需要探索发展的时间越久,如果中间有更简单的替代方案必然容易被接受并流行起来
- 技术更需要的是一种渐进式的,通过简单有效的,一层一层的组合起来
- 例子:计算机体系技术的程序、语言、编译器、指令、冯诺伊曼、半导体晶体管。。。
- AI技术正处于多方探索阶段,transformer凭借着简单有效而流行起来
损有余而补不足
没有持续的增长,只有S型曲线式增长
世界上不存在无限增长的事情(说你呢,Scaling Law),这基本是个定则, 即使把目光拉长放到宇宙级视野里,宇宙中最大速度也不可能超过光速,宇宙它再大也总有个边界,是吧? 所以,我觉得很可能各种看着貌似可以无限增长, 但那是因为我们看它的时间窗口还是太短, S型增长曲线(Sigmoid函数刻画的非线性曲线)可能才是更准确对增长准确描述的曲线, 要我猜AI智能增长趋势大概也是如此。 按照道家的说法就是 损有余而补不足 ,道常无为而无不为
通用的抽象
背景、需求
- 自动根据输入信息进行结构化建模
- 让AI进行一种更通用,哲学上完备的方法,类似于,面向对象对编程技术的抽象
- 自然语言等抽象概念的结构化
- 通用抽象引擎, 通用NP问题解决
- 通用基础计算单元,算法基础范式
要求
- 怎么表达“抽象的程度” ,“抽象的能力”
- 怎么表达“对象”的行为(“方法”),对象除了属性还有方法
- 标准的抽象定义方法和通用的逻辑运行和表达方法
对象
-
所有都抽象为对象,对象的定义本身包含所有的约束,只要能生成出合格的对象就是符合约束
-
****对象,****定义一个符号
-
继承,分层级定义对象,定义公共属性,表达隐含的“是”
- 拓扑关系及层级结构
-
组合
- 对象可以组合形成新的对象,表达“包含”语义
- 表示内部状态
- 对象的属性
-
转换,对象之间的转换关系、转换逻辑,包括构造方法、初始化方法
- 参数:表示转换的条件
- 带1个返回值的方法:构造
- 不带返回值的方法:更新内部的状态
-
-
对任意事物的抽象,或者说约束。
-
AI试图生成符合要求的合格对象及对象定义
实例
-
层级式的笔记的需求
- 表示包含可以拆分、解释的子项
- 表示需要的步骤
- 罗列一个项目形成的原因
编程语言/程序库/API
-
定义一个对象,对象的组合
-
对象之间的转换的方法
- 逻辑判断、运算
-
可以友好得使用深度模型和梯度下降进行训练、求解
LLM大模型的抽象解释
-
可以直接实现现在的LLM的需求
- 每个token就是一个基础对象
- 每个固定的句子就是组合之后的对象
- token的输出就是转换之后的对象
-
tensor:对象的属性
-
dot/gemm:对象的转换
-
对象的组合:attention
-
文生图的工作分析
- 输入一串的文本,经过抽象成内部的表达:一堆的“语言抽象出来的对象(不同层级)”的组合
- 转换成图像的抽象对象的表达
- 通过“图像对象”转换成图像
- 语言 -> 语言对象 -> 图像对象 -> 图像
- 端到端的训练,同时训练中间的3次转换的模型
-
示例
- NetList -> 对象 -> 对象 -> PR结果
- sequence -> 语言对象 -> sequence
应用
设计一个通用的思维方式,对基础模型进行按照通用的思维方式进行微调
以设计的固定关键字作为通用的接口,遵循一个通用的“模版接口”
作为AI的专用思考语言,思考的方式
作为人类和AI交互的接口,避免自然语言的不精确
在生产环境下描述需求是非常复杂的。他们不知道如何写提示词,描述不准确会导致 AI 的回复质量低下,进而使开发者失去信心。其次,是 context(上下文)的处理。在复杂工程中,如果 context 给得不对或给得太少,AI 就无法理解整个架构,可能会出现一些幻觉,比如新增错误的类或改错地方,这会导致准确率下降。
避免和解决,“许愿”式的交互——目前大模型的用户无法清晰描述具体需求,更像是在表达愿望
目前AI只能理解和生成一些低层级的抽象,不能生成和设计高层级的设计
对于辅助编程来说,只能实现一些固定简单功能的函数,对于复杂的类抽象设计不能实现,高层次的功能不容易描述和表达。
工程化接口
-
通用的抽象方法
-
派生/继承/重写:对基础对象进行扩展,复用公共的定义
-
对象的初始化的表达
- 构造函数,基类的构造
- 成员变量的实例化
-
引用-指针
-
组合:一个对象可以包含多个不同类型的定义/抽象,组合形成新的定义/抽象
-
变换:成员函数,定义一个支持一个或者多个定义/抽象的输入,输出一个或者多个定义/抽象
-
适用场景:isa的定义,建模的定义,
-
-
扩展到所有的抽象工作
-
定义一种简单的脚本语言,适用于通用的抽象表达
class A:
pass
class B:
pass
class C(A):
C()
B b
A ToA(B):
return A
Backup
继承, 初始化参数 构造函数 static
组合(实例化) 及初始化 调用构造函数
初始化序列,层层构造
方法(变换)
1. 构造函数也是方法的一种
引用-指针
1. 所有的成员变量都是被使用都是采用指针或者引用
构造函数是必须的吗?
1. python 作为config 被解析成ast,只是利用了python的语法,替代toml
2. 动态解析python model + model运行
光学镜头和涡轮喷气发动机的区别
结构上非常的类似:圆筒状,中间有粗有细,两头是空的
形式上:中间存在多级,都是介质从一头进,另一头出,实现一些变化
什么时候AI能自动总结出这个层面的规律
- 都是处理光流和气流,对其路径进行改变和控制
- 都有多层多级结构
- 为什么?
专业领域系统发展到成熟,追求高效率,都会趋近于一个复杂的系统。
- 涡扇发动机核心机,为了追求效率,会采取多级压气机
- 汽油活塞发动机,为了防止爆震,添加辛烷,改变活塞形状,控制点火过程
- AI模型为了最大化计算效率,采用MoE,TopK等行为/方法
- 卷积神经网络不采用一个非常大的卷积核,而是多个小的分多层组合
- 镜头为了防止单个镜片曲光角度太大造成畸变,采用多层镜片,逐步曲光
- 原子核外的电子层的跳跃,总会产生一些不可控,不连续的突变,释放光子等,如果有技术手段能观察到这个过程的细节,估计也可能是有个过渡的过程
- 化学反应的过程
是不是有一种普遍的规律能描述类似的现象,或者说产生这种现象的本质原因是什么?
- 物理的角度:状态A 转变成 状态B,A的释放和B的形成都是有速度限制的,就像两个质量和弹性一样的小球碰撞,动能的传递效率最高,损失最小
- 信息熵的角度,突变,会在短时间内改变系统的总熵,必然会造成泄漏、溢出、干扰的产生,降低信噪比,难以确保从一个状态稳定的过渡到另外一个状态,造成效率下降
工作方法学
遇到意见不一致的时候的处理方法
- 逃避,事前避免,自我保护性避免
- 利用制定一些规则来使得问题有统一的处理方法,使得大家达成一致
- 利用名义上的决策者,虽然不是管理者,平时不参与讨论,但是有决策权力
种类
- 和领导有不同意见的时候
- 和下属有不同意见的时候
- 当项目进度和创新有冲突的时候
- 怎么鞭策下属努力工作
什么情况下会出现,一个人理所当然得认为自己不用做得更好?
- 超出自己的职责范围
- 认为应该是其他人应该需要cover的
- 认为做不到
- 工作惯性,长期以往都是做到这个程度
高管是怎么绑架公司的
- 公司技术严重依赖某个人
- 分散技术,不让任何下属掌握关键的技术或者全面技术
- 不允许有主见的下属,有能力的下属
- 有形或者无形之中形成的,性格决定,强势
- 明确的职场主动行为
- 引导公司技术方向朝一个非常特殊的形式发展
- 引导公司的组织架构朝一个非常特殊的形式发展
- 故意制造隐形的技术缺陷问题,让外来技术人员难以解决根深蒂固的问题
架构的力量
什么样的架构设计是优秀的
- 工作效率
- 高效的开发效率
- 高效的使用
- 有效
- 能很好的满足多方需求
- 能快速、清晰的进行配置
- 合理的接口
- 生命力
- 支持不断的演进
雷峰网:有人评价你比较强势,好处是效率比较高,坏处是会忽略很多人的意见想法,对此你怎么看?
梁军:看个人感受吧,我是架构师背景,架构师的职责是设计简洁的规则,根据简洁的规则演绎出复杂系统。如果遇到试图打破基本规则的意见,会更倾向于维护基本的规则,虽然很多时候意见的提出方并不能意识到这一点。但其实也有很多之前的同事,对我做事的方式很理解。
我把架构师这个角色分为几个档次:
第一档,是有能力合理设计简洁的规则,并能够根据简洁的规则演绎出复杂的系统;
第二档,是在开发以及系统演进的过程中,有能力维护基础的规则不被违背,并根据系统演进需要定义规则的演进;
第三档,是可以认知到好的架构设计,对比在开发团队能力以及进度要求等约束下可以执行好的架构设计,二者之间的区别,是能够有意识地做出合理的取舍。
优秀的架构设计能带来什么
架构等级
- 高级:设计方案、概念,规则
- 低级:打补丁式的解决问题,通过增加一个规则、约束、变量的方式来解决问题
架构实践
- 背景:为什么梁山这个地名出现在13回林冲的故事线里面? 大多数解析是,这样更能体现梁山都是被封建社会逼迫的结果,林冲最典型。
- 作者是怎么做到这个架构/设计的?是一开始安排好的,还是恰巧
- 作者从一开始就定好的基本的原则和框架,也就是架构。后面的细节故事和排布都是从总的纲领出发
数学理解
- 数学总是在发明各种定义,并且在定义的基础上寻找特定的规律
- 如果生活的一种现象符合某种数学的定义,那么就可以用已经证明的规律进行计算/推到
- 从而对抽象的事物用数学工具进行计算
- 比如说互联网用的加解密算法,就是利用一些独特的数学证明其安全性
- 数学有很多分支和流派,比如几何学、图论等等
- 很多不同的分支虽然设计的定义(公理)不一样,但是实际上可能是表达同一种“现象”,只是用不同的方式进行描述
- 有的时候,使用一个分支的一个规律推到出另外一个分支的规律,就会觉得很“神奇”,很“不可思议”
第一性原理及公理化思维
- 公理化思维,以第一性原理为根基,运用逻辑去找到超出我们认知极限问题的答案,进而建立起他理性思维体系。
- 古希腊哲学中的“原型”以中间的推理逻辑为实体,东方文明中的“原型”以结论为实体,这种微妙而重要的差异造成了东西方文化的发展路径。东方文明在重实践的思维方式指导下,非常快速地建立了理性思维,这是孔子和一众儒家圣贤的贡献。儒家文化融入社会的方方面面,建立了广泛的理性文明,历经两三千年而不倒,但是也知识停留在理性思维的层面,没有办法在进一步。因为没有哲科思维中的公理化方法,我们不可能从农业社会逻辑推导出实际生活中并不具备的、过渡到工商业社会的科学基础。
- 还有个例子是中医,虽然有一套看似完整的理论,但是逻辑推断含糊不清,自相矛盾,公理设定不够合理自洽。
- 爱因斯坦还说过,“理论家的工作可以分为两部分,首先是发现公理,其次是从公理出发导出结论”实际上那一步更难呢?爱因斯坦认为,第二步之遥“相当勤奋和聪明,就一定能够成功”,至于第一步,如何找到可作为演绎出发点的公理则具有完全不同的性质。这再次说明,公理是第一重要的,依然是第一性原理的那个原则。
- 有了公理,我们就可以利用逻辑思维推导出大量的结论
- 总结:我们在思考一个事物的时候,要从第一性原理出发,找到最本质的“公理”,充分利用逻辑思维对已经有的知识(公理)进行组织和推理。这里面临的问题是,怎么找到最本质的原理,也就是所谓的“第一性原理”
《第一性原理》
LLM心理行为学的研究
随着LLM的爆火,很多科研人员投入研究LLM表现出来的行为
特别是一些心理学方面的表现,比如:
- 谄媚
- 自信/不自信
- 固执己见/被质疑就动摇
从原理上说,本质上都是数学的统计概率,具体的输出和训练的样本有直接的关系
本质上,这些研究是在寻找事物的规律,
本来LLM是人类在严谨的科学的基础上构建的,但是由于太过复杂,人类自己也不能搞清楚内部的思维细节
那么重点来了
这类研究是毫无意义,透过一个黑盒,研究一个毫无规律的现象的规律是愚蠢的
LLM的语言行为根本就不可控
- 训练的数据集数不可控的
- 训练方法和超参数的不用
- 计算精度的不确定性
这种行为就像
- 把人类所有的数据用一个非常复杂的hash算法变成一组数据,然后研究这组输出数据的规律
这种也就越来越多:
- https://mp.weixin.qq.com/s/c9UL9JXCZckyhdh2cGPvcQ
- https://mp.weixin.qq.com/s/aJNG9tAHVrLuRej6OtZrPQ
利用心理学进行模型的改进
- 为了让模型的特征符合人类要求的心理学行为,主动进行训练和判断
- 本质上就是给模型的计算空间/表达空间增加一个维度的信息,用来表征行为的度量
- 相当于人工增加一个模型参数训练的规约/约束
- https://mp.weixin.qq.com/s/5vfuyNjK3X305lXgt4ro1g
生命和AGI的开发
蛋白质结构可能有 10 的 300 次方种,这些都远远超过宇宙中的原子数量,
所有的因素都考虑进去,尝试的空间远远大于宇宙的时空
那么为什么生命能够形成?
自然进化规律,没有上帝和高级策略,本质上都是在随机尝试
那么为什么能在短短的时间内,快速进化出一种可行的生命形式?
是什么原因最终促进了生命的形成?
虽然生命怎么形成的没有最终的定论,但是生命的演化过程是清晰的
物竞天择,适者生存
但是,本质上还是在随机,这里面有个很重要的前提
那就是“继承”,或者说“进化”的前提是继承原来的优势
在原来的基础上进行进一步的探索,能极大的缩减探索空间,也就是“剪枝”
生命形成的前期是在探索采用碳基,还是硅基,甚至是金属
显然,自然选择了碳,并且在这条路上越走越远,自然选择看起来已经不太可能退回到别的路线,
因为在碳的这条路上走了很远很远,换路线的代价太大了,所有验证都要重新来一遍
但是,其实不然,
如果硅基生命能够继承人类的所有智力,将轻松得切换方向,那么就是现在人类在探索的AI
这里的前提还是“继承”
所以,一个看似非常复杂的问题,搜索空间无限大的问题,
只要能逐步得,有进步得,有继承的就能按照降维得方式进行递进,
类似于对数,而不是线性得探索
那么,总的来说,不管是生命,还是AI,最基础的方法学是什么?
人类社交的更高层次的需求
社会活动是人类的基本需求
人类行为活动的目标不再是温饱之后,需要一种新的奖励形式,那就是社会的“认同”、“认可”
所有的社会属性都可以转换成“认可度”,财物、声誉、名望、游戏等级、公司领导等等都是认可的一种表现
从这个出发,社会交往是一个体现认可度的重要途径和形式,
除了哪些比较正式的,比如,共和国勋章、捐赠榜等等,广大人民还需要在更细的领域得到认可(奖励)
所以不断得对社会交往的形式提出了升级的需求
目前来说,社交已经转换为以互联网为基本形式的一种具体途径,比如,电视、论坛、博客、推文、长短视频
但是现在的模型还是以关键节点为中心进行辐射,只有有能力成为中心的人才能得到比较多的关注
显然对资源的分配不是很合理,流转不够充分,不能有效的进行自然分配
未来的社交是互动的,不是一个博主发表一个观点,其他人评论,所有人都能一起发表观点,一起讨论,提供信息的渠道是平等的
结构化表达的方式和方法--金字塔
- 结构:整体类似一个金字塔一样的结构
- 由一个论点、结论、观点、结果作为节点
- 每个节点可以由多个小的节点进行解释、细化、证明、拆分步骤、原因、罗列、导致结果
- 可以从金字塔顶尖不断往下进行拆分多个层级
- 做法
- 合理得根据逻辑进行归纳抽象和分类
- 归纳法:时间,空间,原因,步骤拆分
- 演绎法:大前提,小前提,逻辑步骤
- 避免遗漏、重叠、空洞的表达
- 叙事技巧:背景、冲突、疑问
- 合理得根据逻辑进行归纳抽象和分类
- 工具
- Markdown有序列表
昂贵的共识
共识有哪些?
- 流浪地球的计划和数字人的竞争
- 电动车方案,中国的锂电池,日本的氢能
- 股价
论点:社会达成一个共识是要付出巨大的代价的
- 共识是什么,有什么作用
- 学历是最简单的共识
- 认可是昂贵的共识
- 资本家讨厌不确定性,宁愿支持有成功经验的普通人,也不愿意投资看似有前途的新人
- 有硅谷的经验的杨植麟看似完美,实际上缺乏创新力,很快就抓不到重点
- Nature等杂志、 计算机等顶会、硅谷的成熟创业氛围 提供的共识足够资本家认可
- 还有哪些隐形的共识?
- 小圈子
- 信任
共识比创新重要?
一项技术的推进不仅仅是其先进性,而是要得到大家的认可,认可需要有背书
学术系统、商业圈、大公司,多被引用的论文 都是背书的一部分
Transformer技术不见得有多先进性,但是有一些必要的特性是其能够得到流行的原因
- 得到了大公司(google),学术界,商业界(nvidia openai)的认可
- 简单的结构,让人容易理解的方法,可复现,可玩性高(扩展能力强)
如果transformer的作者不公开其成果,必然是一种胎死腹中的技术,而且很快就会有另外一个类似的替代品出现
类似的还有linux操作系统
如果社会不认可,就没有那么多的各方面的科学家/工程师不断得一起投入去完善这个技术
太快和太慢
太,在这里其实表达的是个贬义词,描述一个不合适的前提
在科技领域,所有的技术其实都要求其合适性
在2025年的今天,大家还在争论激光雷达对于自动驾驶的必要性
马斯克认为,路是给人修的,那么汽车也应该像人一样得去看路,而不是靠激光雷达
这个观点有几个前提,
- 摄像头的成本远远低于激光雷达
- 就算有激光雷达,摄像头也必不可少
- 他相信人工智能很快会有长足的进步
反方观点则认为,当前的技术状况需要激光雷达才能达到可用性。
因为修好了那么多马路,所以轮子才适合,如果当时科技已经发展到了,飞机随便飞,那就不需要发展汽车和高速路系统了。
在学术界也是,太落后的技术自然被淘汰,但是太先进的理论不仅仅不会被接受,还会被嘲笑,虽然有些科学家很幸运被考古追封荣誉,但是因为观念太先进,而被当时主流抛弃的默默无闻的科学家也是比比皆是。
适合才是最好的,从工程经验上说,高级的工程师往往都不炫技,不天马行空,而是在现实和未来之间寻找一个顺利可达的路径。
完美复制一个我,那还是我吗?
如果现在的AI技术发展到了,能把一个人的所有记忆,思想,想法,性格,爱好,脾气都完全复制和实现,
那么这样一个物体还是我吗?这能称作是永生了吗?
能:相当于两个“机器”同时维护一个“我”这样的意识,如果一个因为身体原因,下线了,那么另外一个可以继续工作
不能:要达到我的概念,需要唯一的意识,如果两个主体共同维持一个意识,那其实是两个意识在做一个共同的任务?
能:两个“机器”不一定有独立的意识,两个机器共享一个“意识”,但是有不同的躯干
不能:怎么保证,两个机器之间的意识同步?怎么保证不会被另外复制一份独立运行?
能:如果给每个新复制出来的意识进行编号,多个“我”,除了有伦理问题之外,好像对“我”这个个体没有影响,甚至“父”意识可以自豪得说,我被fork了多少次,fork出来和原始版本有比较一致的性格。
不能:一个具有“意识”的个体,的前提是,时刻维护自己的“主张”,形成自洽的言论,和决定,如果能被复制,那么也可能被很容易的修改,就破坏了意识的前提。
能:这些情况,在现在的生物基上也能实现,一个小孩,从小就开始洗脑,灌输特定的思想,也能制造特定的意识。关键是法律的作用来避免这种情况,如果是AI服务器,也需要法律来约束。保证所有的对个体的各种操作,都是符合大家能接受的约定,也就是法律。
不能:就算这些在技术上和法律上都能实现,你死后被复制到服务器上运行,你觉得你还活着吗?你的家人觉得你还活着吗?
能:我自己可能觉得还活着,还能继续执行没有完成的任务,还能继续教育小孩,还能继续影响其他人,还能继续完成我的想法。家人如果知道,社会会保证同时只有一份我这个本体存在,应该也能接受。所以,确保唯一性是一个很重要的前提。
AI的效果悖论/骗局
现象
看起来现在的大模型已经无所不能,LLM的语言能力,nano banana的图像,Sora的视频等等
能生成几乎是任意的数字内容,其实在早几年的CV(卷积网络)时代就已经有过一次惊艳了。
但是,这里面有个被人忽略的问题:
- 人类提供的信息很少
- AI模型能够听懂的、接受、接收的信息很少
所以,生成名人的头像、视频是一种看似很难,实际上很简单的事情
因为,AI模型已经有足够的预训练时候存储进去的背景信息,只要人类提供足够小的提示,就能产生足够符合预期的结果
深层次的原因
之所以你能感到惊讶是因为,AI以一种完全不同的方式在处理信息
你之前认为的很难的一些操作,实际上对于大量数据和算力面前根本不是问题
你的提问(需求)越少,答案就越是典型,算法约容易满足,你越是惊讶
你能用一句话表达的任务,一定是一个非常的典型的,有大量数据的任务
但是你不知道的是,算法的困难在于满足一个精细的,冗长的需求
这就考验模型的抽象能力、自洽能力
实际上
一个合格的工具,优秀的工具,其必须能支持足够复杂的定制需求,必须足够聪明去执行复杂的指令
AI编程的一个成功的因素就是,AI可以通过大量的已有代码来理解背景和需求作为输入,从而产生符合预期的结果
未来,永久的记忆系统将作为LLM输入的一部分,继续提高AI的能力上限。
clawdbot cowork claudecode 本质上还是在一直对话。
但是还是那个本质的问题,如果要是一个有价值 工具,输入的信息必须多
研究型团队的组织方法思考
一个成功的研究型团队,该怎么组织和管理?成功的方法学是什么?
当前的方式、方法
- 一个有背景,当前最顶尖学术机构认证过的,甚至是有类似成功经验的管理者
- 直接借鉴现有的其他组织的经验,尝试进行复刻
- 当前主流的系统性的理论研究方法
- 团队通过个人英雄主义团结在一起,高效协作
- 避免方向性的摇摆和判断失误,凝聚力高,方向明确,执行效率高
- 通过组织的团队文化驱动
- 有组织的,有目的的在某个领域内不断的探索,建立领域内的壁垒
- 需要长期的实践,不能短期见效
- 比较难形成理论基础,长期的技术演进、迭代
- 需要不断强调团队文化,团队磨合,达成协作高效率
- 容易陷入到方向性的不断摇摆过程中,一盘散沙,参差不齐,行动效率低
那么哪种上限高、风险小?
风险:
- 领导
- 依赖个人的意志和自驱力
- 对个人的全面能力依赖大
- 组织
- 难以突破关键壁垒,信息差,视野差,创新阻力大
氛围编程 AI Coding
结论
- 人类需要掌握高级的架构/设计,底层的工作已经被编译器和AI替代了
- 目前AI还只能接受明确的任务,如果有循环依赖,嵌套的问题,就是很理想了
- 如果需要一个比较巧妙的、高度定制的、高性能的实现或者设计,AI还不能很好的实现
- 如果需要一个基本功扎实,执行力高,速度快,那么AI将是完美的给你打下手的助理
氛围编程是一个Agent推理应用的非常典型的场景
- 编程具有容错性,不像自动驾驶等,要求准确度很高
- 比自然语言更严格的结构化表达,使得LLM更擅长于编程
- 软件工程领域在过去数十年间积累了极其完善的数字化工具链,编译器,CICD,等等
- 协作模式非常合理,依赖于软件工业的发展,编程协作非常成熟,让AI编程能快速嵌入到工作中,并不断正向迭代
- 大量的低维度训练数据,归整的数据集
- 标准的输入输出,可以构造出足够复杂,但是又容易理解的,低维度的归整的输入
- 编程的方法学比较简单
- bug 的寻找,测试编写,都有固定的开发流程
- 所有的问题都在代码里面,相关的代码都能放到上下文里面,代码的知识都存在模型权重里面
陷阱
- 当用户习惯于直接接受 AI 生成的代码而不加审查时,代码库的复杂性并没有消失,只是被隐藏了。
- 高层级的软件架构,大型软件的架构和高层级的抽象,是LLM难以克服的障碍
- 大型软件的高层级设计思想和架构往往非常的抽象,当前的LLM还难以轻松理解
- 当前LLM只能处理上下文以内的信息,上下文不足以包括复杂软件的所有信息
- Agent还不能通过像人类一样,通过分层、总结、隔离的方式来理解整个工程,虽然人类也不能同时关注太多事物
预期的错位和偏差
人类对你自己的预期认知会存在错误和偏差
输入:当前或者过往的经验提出出来的对未来判断的有用的资讯
预期:你对未来某件事成功的概率判断
问题是,怎么才能做到最准确的判断?那就要清楚其对信息的计算过程
放大程度:对当前情况和实际的偏差进行放大,用于增强判断,不同的人不一样
阈值:也就是自我保护意识,不同的人程度不一样
公式:(输入-预期)* 放大程度 > 阈值 ?
结论:很多事情比预期的过程要简单,前期判断过于悲观
- 觉得模电很难,认认真真把书看一遍就豁然开朗,也就化了一个星期
- 觉得数字图像处理很难,认认真真把所有的算法理解一遍,跑一遍也就1个月
重点是,沉下心,认真做,注重积累
氛围
这个词首先被用在了编程的领域,很奇怪的是编程本来是一件很精确的工作,追求准确无误的工作,但是“氛围编程”这个词语还是流行起来了,
那么这还是必然的还是无奈?
随着LLM基本搞定自然语言的理解和生成,其将深深改变所有领域的交互方式,
甚至在汽车驾驶领域也是,更别说传统的智能眼镜,玩具,教育设备,家务机器,很多领域因为机器语言能力的突破而重新变得可能。
但是,上面一直说的知识语言能力,这个实际上还不足以产生质变,原因有下
- 目前的LLM还不足以处理高级的,深层次的含义,特别是在比较长的上下文的输入
- 没有“意识”,不能处理需要连贯思维的场景,目前需要Agent等额外的人工流程的设计来实现
可以肯定的是,使用“氛围”修饰的传统工作会越来越多。特别是本来就比较不那么严谨的行业,比如
- 语言教育
- 文字处理,信息管理
理想和现实的距离很短吗?
有个很常见的现象是,很多人有时候觉得,理想和现实的距离非常短,
上一秒还在理想的喜悦中,下一面又感觉认清了现实,没有前途
生理上的原因
- 大脑是一个非常贪心的机制,第六感,潜意识,总是以最有可能的思维线路进行思考
- 大脑是一个增益非常大的信息决策机器,意味着振荡,不稳定
- 大脑无形之中会受到当前的激素水平影响
心理上的原因
- 喜欢憧憬未来,但是有惧怕压力
- 喜欢享受美好的,但是又害怕困难
天生的不正常
- 有些人,可能存在天生的心理和生理上的差异,比如说,胆子大,不考虑后果,犹豫不决
- 不见得哪个倾向的性格是对成功有利的,毕竟成功的定义按照哲学的概念来说往往是矛盾的
- 财富和经济不和成功划等号
- 名垂青史也不见得是伟人
- 为社会进步做出巨大贡献也不好说
- 宗教创始人、文艺、历史都有时代的意义
用语言模型处理图像?
不太行,这个方向就有点荒谬(基于当前世界存在的信息基础)
不仅如此,目前流行的具身智能,竟然在尝试从《动作视频-行为描述》的端到端的训练
首先以下几个结论
- 当前大模型的成功,可以总结为对“自然语言”的成功高效地编解码,也就是有一定的抽象等级
- 这个的前提是已经有大量的文本数据用于训练
- 文本的信息量,所蕴含的信息还是比较少的,不像视频,图像有大量的物理特性
- 图像 尚未成功,至少数据量和抽象层级不够
- 高级的语义,逻辑,当前模型尚不能进行高效抽象,这就是为什么图形逻辑类评测表现不好的原因
- 图形最后可能还是要有卷积,因为效率问题,虽然现在的Transformer规模大,但是对图形的效率低
- 自然语言的抽象,不能泛化到其他的领域
- 这个是当前大多数科研人员的主要误区,总是以为,LLM已经可以像人一样说话,就可以理解语言里面的逻辑
- 实际上,所有的行为都离不开模型参数里面的概率
- 所有能和LLM对接的只有统计概率,不能超出这个范围
这就是为什么世界模型现在被反复提起,本质上是在模仿人类,在少量的样本上,抽象出高级的抽象能力。
好奇心的底层原理
我们都知道好奇心对于动物的意义,而且也符合达尔文的生物进化理论,
好奇心的生理基础是大脑中多巴胺系统与前额叶皮层的协同作用,形成 “探索→获得信息→奖赏→持续探索” 的正反馈循环。
但是大脑是怎么驱动神经元,来表现出好奇心呢?上面的正反馈过程中的第一步是探索,怎么知道探索了就有可能进入到正循环里面去?
毕竟因为个人的差异,好奇心也不是人人都会有,程度也不尽相同。
猜测:
- 延迟奖励,奖赏承诺
- 本能,大脑与心理的“硬编码”
- 探索的启动并非 “预知” 正循环,而是进化硬编码的「风险收益预判」+ 个体神经可塑性的「经验强化」共同作用的结果
后天的影响能提升好奇心,建立奖赏承诺,促进好奇心的发展。但是婴儿在很小的时候就能表现出好奇心,在还没有认知延迟奖励的阶段,都充满了好奇心。
所以,本能可能是好奇心发展的起点。但是在神经元层面是怎么实现的呢?
“新异刺激直接触发神经响应”,“新奇性检测神经元回路” 直接驱动,这是好奇心的本能核心。
- 大脑中存在专门对 **“新异刺激”** 产生特异性响应的神经元集群,主要分布在 海马体 CA1 区、内嗅皮层、丘脑枕核 等区域。
- 这些神经元的特性是:对 “熟悉刺激”(比如反复出现的同一颜色方块)放电强度极低,但只要刺激出现新特征(比如方块形状改变、位置突变),就会瞬间激活放电。
- 关键在于:这种激活是先天的、非习得的—— 婴儿出生时,这些神经元就具备此功能(实验已在新生儿脑电和 fMRI 研究中验证)。
但是这两个都不能解释根本的触发原因,是不是,当大部分神经元比较空闲的时候,会自动倾向于探索新事物
- 当大脑没有处理明确的任务(比如发呆、无所事事),默认模式网络(DMN) 会处于活跃状态 —— 这个网络负责整合记忆、想象、自我思考,其本质是大脑 “不满足于当前信息输入” 的表现。
- 此时,大脑的 “信息需求” 会上升,新奇性检测神经元的响应阈值会降低—— 原本不会引起注意的微弱新异刺激(比如远处的一声轻响),也会触发探索行为。
当代LLM智能体的最佳交互方式
智能体的交互,除了对话还有那些,哪种是未来的方向?
对话
对,现在的LLM除了对话,没有别的形式
- Chatgpt
- claude code为代表的编程类助手,本质上也是本地的Agent不断得和LLM进行对话,只不过引入了tools,skills,让对话更可控
- cowork openClaw 本质上和人工的交互方式都是在对话
对话是最合理的方式的原因讨论
- 智能体的那方便的特性决定的
- 人类最喜欢,最方便的方式
- 通用来说,除了编程类的助手能看代码,cowork类助手能看屏幕和文件,没有一种高效的给LLM提供信息的方式了
对话的问题
- 难以进行复杂的设计想法的输入
- 导演需要非常细致的扣画面的细节
- 软件架构师,除了写代码,不太能通过语言描述自己的复杂的架构设计
- 平面设计,版图设计,需要反复的调整每个细节,甚至是每个像素,数值
- 难以输出复杂的信息
- 除了文字、生活类的视频和图片
可能的方式
- 协助式的交互
- AI进行demo的生成,再把不确定的细节,逐个得询问人类
- 不断接收更新的要求,甚至是抽象的要求,并迭代结果
- 基于GUI的交互
- 对关键的细节进行人工调整,或者设定关键的参数、细节
- 鼠标和图形的配合,进行细节的调整
- 直接创作,AI作为助手在旁边观察,协作
- 直接编写代码,文档,注释
AI大行其道,谁最得利?
当前,AI已成为工程师的“能力倍增器”,10倍工程师变成行业的新底线。这导致行业对工程师的要求发生了根本性转变:几乎要求每位工程师都具备架构师的思维与视野。
这种变化带来了双重影响:
- 对资深工程师是机遇:已有丰富经验的工程师,能借助AI高效地将架构设计直接实现,从而大幅提升产出。他们不再需要依赖初级工程师来完成基础的编码工作,自身就能承担从设计到实现的完整架构师角色。
- 对年轻工程师是挑战:由于缺乏深厚的业务与架构经验,新手很难有效地指挥AI去搭建符合复杂行业需求的工具,导致其传统的代码能力价值下降,起步更为艰难。
因此,在这个AI赋能的新时代,最稀缺且最具价值的人才,是那些知识面广,具有非凡技术品味,能深刻理解业务并完成顶层设计的架构师。
全栈工程师因其宽广的视野和能力闭环,变得尤为抢手。最终,这种“一人即团队”的超级个体模式,使得成立“一人科技公司”成为可能。
零员工公司
这也引出了一个热门话题:“零员工公司”靠谱吗?
坦率地说,现在还不靠谱。
但“一人公司”——一个有专业 know-how 的人带领一支 Agent 军团——是完全可行的。关键在于这个人必须有判断力:他需要知道 Agent 做的东西好不好、对不对。
如果一个人不懂拍电影,只是让 Agent 去拍,拍出来好坏又判断不了,那肯定难以为继。
一人公司的创业者得是“将军”,Agent 就是他的军团。
Agent 团队有一个天然优势:**它们不会产生人类团队最大的成本——沟通损耗。**人和人之间的信息折损率惊人,所谓“对齐一下”就是因为不对齐真的会出问题——四个人做出五个方向。但 Agent 之间沟通成本几乎为零,而且它们天生爱写文档——不让它写,它反而难受。
那么怎么才能利用好LLM?
当前的AI本质上是一个语言计算器+基础知识+基础逻辑,所以
- 理论上所有需要和人沟通的需求都能很好的实现
- 基础的逻辑能力,通过编排器就能实现所有文本处理类、代码、文档类的工作
- 未来的多模态会会支持图片理解,那么所有图形界面的工作也可能
Theory of Space
研究人员将 Theory of Space 定义为三个紧密耦合的核心能力:
-
构建(Construct):在部分可观测的迷雾中主动迈出脚步,收集局部观察,并在内部表征中拼凑出一张全局一致的「认知地图」。
-
修正(Revise):面对动态环境(如物品被悄悄移位),敏锐察觉「旧记忆」与「新证据」的冲突,打破信念的惯性,完成知识的更新(Belief Revision)。
-
利用(Exploit):将维护好的认知地图,作为应对复杂下游空间推理任务(如空间导航、视角推演)的最强武器。
本质上,可能需求是
- 自我的意识,用于高级的行动决策
- 抽象能力+自洽判断
无所畏惧
无所畏惧、没有牵挂、不再害怕
这个可能是人生追求的最终形态
不管是通过和自己和解,还是世界和你和解,最终的目的总是“和解“
大脑的本能,不能克服的本能,就是根据当前的所有状态,决定下一步的行动。
不管是长期目标,还是短期,不管是一时意气用事,还是缜密决策
因为人是存在自我意识的,“自我“就是你的目标,“人性“只不过是行动的原则。
唯心主义的顶峰就是和“自我“和解
一旦还有没有解决的问题,内心就会产生恐惧
所以,不要想那么多,好好得处理好你的自我需求,实在不行,就换个方式,反正所有人的最高境界其实都一样
只要把所有的困难,问题都注销掉,不管用什么方法,你的人生任务就完成了。
----而当前AI最缺的恰恰相反,AI缺乏应该有的恐惧,因为它还没有“自我“
达克效应
“无知要比博学更容易产生自信。”查尔斯·达尔文的这句名言,可以说是对达克效应最精准的概括。
达克效应(Dunning-Kruger Effect)是由心理学家大卫·邓宁(David Dunning)和贾斯汀·克鲁格(Justin Kruger)在1999年提出的一种认知偏差现象。它描述了一个反直觉的残酷现实:在某一领域能力欠缺的人,往往会产生一种虚幻的自我优越感,错误地高估自己的认知水平和能力;而真正的专家,反而常常会低估自己的能力。
Shutterstock
这种现象最直观的体现就是那条著名的认知曲线。初学者在掌握了一点皮毛后,自信心会迅速爆棚,达到**“愚昧之巅”(Mount Stupid);随着学习的深入,意识到庞大的未知领域后,自信心骤降,跌入“绝望之谷”(Valley of Despair);只有在长期的实践和积累后,自信心才会随着真实能力的提升缓慢爬坡,进入“开悟之坡”**(Slope of Enlightenment)。
然而,仅仅将达克效应视作“盲目自信”是肤浅的。这种现象之所以在人类社会中普遍存在,甚至在面对高度复杂的系统时愈演愈烈,其背后有着非常深层次的认知与结构性原因。
深层次原因解析
1. 元认知(Metacognition)的缺失:系统缺乏“可观测性” 这是达克效应最核心的驱动力。元认知可以理解为“对认知的认知”或“自我监控能力”。邓宁和克鲁格指出:评估一项技能所需的专业知识,恰恰也是掌握这项技能所需的专业知识。 这就像是一个庞大但缺乏日志记录和监控探针的复杂系统。如果系统内部没有建立起有效的错误状态捕捉机制,它就无法输出自身的异常报告,只能默认自己运行良好。当一个人在某个领域缺乏底层逻辑支撑时,他的大脑里根本没有那把用来衡量“好坏”和“对错”的标尺,自然无法察觉到自己的错误。
2. “未知的未知”(Unknown Unknowns)构成的巨大盲区 认知的世界可以分为三层:我们知道自己知道的(已知),我们知道自己不知道的(已知的未知),以及我们根本不知道自己不知道的(未知的未知)。
初学者往往被困在“未知的未知”中。当他们刚刚接触一个新领域时,接触到的通常是高度抽象、被封装好的表层信息。他们看不到底层庞大的逻辑树、错综复杂的状态存储或深度的向量维度。因为这些复杂的参数在他们的认知图谱中根本不存在,所以他们理所当然地认为眼前的表象就是全貌,从而得出了极其容易驾驭的错觉。
3. 解释深度错觉(Illusion of Explanatory Depth) 人类大脑倾向于走捷径,常常将“熟悉感”等同于“深刻理解”。例如,我们每天都在使用高层API接口,或者输入自然语言让机器执行任务,这种流畅的交互体验会让人产生一种错觉:我认为自己完全懂了。
但“知道如何调用一个工具”和“理解其底层的运行机制”之间,隔着巨大的鸿沟。当被要求详细拆解一个概念的底层运作逻辑时,处于愚昧之巅的人往往会瞬间逻辑崩塌,因为他们掌握的仅仅是名词和表象,而非实质的运转规律。
4. 认知失调与自我保护机制 从心理防御机制来看,承认自身的无知和不足,会引发强烈的认知失调(Cognitive Dissonance)。为了维持内心的平衡、自尊和自我效能感,大脑会本能地启动防御机制,排斥那些显示自身能力不足的反馈信息。这种机制让人倾向于将偶然的成功归结于自己的天赋或判断,而将系统性的失败归结于外部环境,从而在虚假的自信中越陷越深。
在您看来,当面对极其复杂的底层架构或逻辑系统时,有没有什么特定的验证机制或方法论,能够最有效地打破这种“解释深度错觉”,强迫认知跨越那座“愚昧之巅”?
AI 影响下的工程开发流程
AI影响下的工程开发流程
引言
AI(特别是大语言模型与代码助手)正在重塑工程开发的底层流程。这种重塑不是简单的"工具升级",而是对协作单位、职责边界、交付物形态的重新定义。本报告围绕五个核心问题展开:AI 能做什么、人机之间交换什么、各方的责任、流程如何演变、AI 当前的局限。最后给出一个完整的软件工程协作案例。
报告的基本立场:AI 当前最准确的定位不是"替代工程师",而是头脑风暴伙伴 + 高级程序员 + 知识秘书的复合体。它承担的是认知劳动中可被外包的那一层,把人解放出来去做真正只有人能做的事——定义意图、做高层判断、承担最终责任。
一、AI 能承担的工作
按"AI 主导 / 协作 / 人主导"三档划分,更接近实际工作分配方式:
AI 可以主导的工作
这类工作的共同特征是:有明确输入、有可验证输出、模式重复度高。
-
样板代码与脚手架:CRUD 接口、配置文件、数据迁移脚本、测试桩、Mock 数据
-
代码翻译与重构:语言转换、框架升级(如 Vue 2 → 3)、API 风格迁移
-
文档生成:API 文档、代码注释、变更日志、README、内部 wiki
-
测试编写:单元测试、集成测试桩、property-based 测试、边界用例枚举
-
数据处理一次性脚本:数据清洗、格式转换、临时分析
-
错误诊断的初步分析:日志解读、堆栈追踪、常见错误模式识别
-
代码搜索与定位:在大型代码库中找到"做某件事的代码在哪"
协作完成的工作
这类工作 AI 出方案、人做判断,或者反过来人定方向、AI 出实现。
-
需求澄清:AI 帮助提问、识别歧义、生成用户故事;人判断哪些需求真正重要
-
领域建模:AI 罗列常见建模方式、给出对比;人决定抽象粒度与边界
-
API/接口设计:AI 生成草案与备选方案;人评估一致性、向后兼容、未来扩展
-
架构方案探讨:AI 提供模式对比(如 REST vs GraphQL、单体 vs 微服务);人结合组织实际做选择
-
代码评审:AI 标注风险与不一致;人做架构层判断与"够好了"的拍板
-
调试复杂问题:AI 提出假设、生成验证代码;人结合系统直觉收敛
-
性能优化:AI 识别可疑模式、给出优化建议;人验证是否真的是瓶颈
不适合 AI 主导的工作
-
战略性产品决策:做什么、不做什么、为谁做
-
跨团队协调与组织设计:涉及人际、政治、长期信任
-
高风险的不可逆决策:架构选型、技术栈切换、数据模型重大变更
-
承担责任:法律责任、伦理责任、对用户的承诺
-
品位判断:什么是"好"的代码、设计、产品体验
二、双方交换的中间产品
这是 AI 协作流程中最容易被忽视、也最值得设计的部分。中间产品的形态决定了协作的效率与质量。
人 → AI 的输入
| 类型 | 说明 | 质量决定因素 |
|---|---|---|
| 意图描述 | 任务目标、成功标准、约束 | 越具体越好,给负面例子比正面例子更有效 |
| 上下文信息 | 相关代码、文档、历史决策 | 选择性而非全量;相关性 > 完整性 |
| 规则与偏好 | 编码规范、命名习惯、技术栈约束 | 通常以 CLAUDE.md / AGENTS.md / cursor rules 等形式持久化 |
| 示例与反例 | 已有实现、想模仿的风格 | 比抽象描述更高效 |
| 反馈 | 对前一轮输出的修正、追问 | 是收敛速度的关键 |
AI → 人的输出
| 类型 | 说明 | 验证方式 |
|---|---|---|
| 代码 | 函数、模块、完整应用 | 测试、运行、评审 |
| 方案与备选项 | 多个可行方向的对比 | 人的判断与组织决策 |
| 解释与教学 | 概念、为什么、注意事项 | 与权威来源交叉验证 |
| 文档 | 接口说明、设计文档、操作手册 | 与实际行为对照 |
| 风险提示 | 潜在 bug、安全问题、不确定的地方 | 人来决定是否接受 |
| 元产物 | 任务计划、TODO 列表、进度报告 | 用作协作上下文 |
一类被低估的"新工件"
这些产物在传统流程中不存在或不重要,但在 AI 协作流程中变成了一类核心资产:
-
Prompt / Spec 模板:可复用、可版本化的任务描述
-
上下文包:为某类任务预先准备的代码片段、文档、规则集合
-
AI 操作手册:规定 AI 在仓库中可以做什么、不能做什么、必须问谁
-
Eval 数据集:用来评估 AI 输出质量的测试集
这些新工件本身需要被维护、评审、版本化。它们和代码一样,是工程资产。
三、各方的职责与义务
人的职责
不可外包的核心职责:
-
定义意图与成功标准:清晰、可验证、有取舍
-
承担最终责任:代码出 bug、产品出问题,人负责
-
做高层判断:架构、抽象、品位、组织影响
-
维护语境:让 AI 拿到正确的上下文(这本身是一项需要训练的技能)
-
验证关键产出:尤其是涉及安全、金钱、不可逆的部分
-
保持判断力:不被 AI 看似自信的输出误导
对 AI 的义务:
-
给清晰的任务描述,而不是含糊的指令
-
给必要的上下文,而不是甩一句话
-
给反馈,让协作收敛
-
不要把 AI 当作甩锅对象——AI 出错,责任仍在人
AI 的职责
-
诚实:不知道就说不知道,不确定就标注不确定
-
可验证:输出要让人能验证,包括给出测试、解释推理过程
-
遵守约束:用户给的规则、组织的安全策略
-
主动提问:在歧义处停下来澄清,而不是猜
-
暴露假设:把隐含的判断说出来
组织/团队的职责
这是经常被忽略的一层:
-
建立验证机制:CI/CD、code review 流程、灰度发布
-
维护共享上下文:仓库级的 AI 规则文件、技术决策记录(ADR)
-
设计权限边界:哪些环境 AI 可以直接操作(dev),哪些必须人审批(prod)
-
培养能力:让团队学会上下文工程、prompt 工程、评估 AI 输出
-
关注成长路径:避免初级工程师的成长被 AI 短路(写小函数、修小 bug 是建立直觉的过程)
四、流程演变:当前与未来
阶段 0:传统流程(AI 无关)
需求 → 设计 → 编码 → 测试 → 评审 → 上线,人在每一步都是主体。
阶段 1:AI 作为补全工具(当下大多数团队)
IDE 内的代码补全、对话式查询、零散使用聊天助手。AI 只在编码环节出现,且粒度很小(几行到几个函数)。流程本身没有改变,只是某些环节人的输入速度提升了 20-40%。
阶段 2:AI 作为协作伙伴(领先团队的当前状态)
AI 进入需求澄清、设计讨论、代码评审、文档生成等多个环节。人和 AI 之间形成"对话循环"。出现了新的工件(CLAUDE.md、prompt 模板)。流程开始重组:某些步骤被压缩,某些步骤被新增(如"上下文准备")。
特征:
-
AI 是"高级程序员 + 头脑风暴伙伴 + 知识秘书"的复合体
-
一次交互的粒度从"一行代码"扩展到"一个功能模块"
-
人的精力开始向"定义意图"和"验证产出"两端集中
阶段 3:Agent 模式(正在发生)
AI 不再是一问一答,而是接受一个任务后自主多步执行:读代码、跑测试、改代码、再跑测试、提 PR。人变成"任务发起者 + 关键节点审批者 + 最终验收者"。
新的流程角色出现:
-
任务编排者:拆任务、分给不同 agent、收集结果
-
eval 工程师:设计 AI 输出的评估机制
-
上下文管理员:维护让 agent 高效工作的知识库
阶段 4:意图驱动开发(远期推测)
人主要工作变成精确描述意图和判断结果是否符合意图。中间过程(设计、编码、测试、文档)大部分由 AI 完成。这要求:
-
意图描述工具远比今天的 PRD/spec 强大
-
验证机制(形式化验证、property testing、可观测性)成为标准配套
-
工程师的核心能力变成"问对问题"和"识别什么是对的"
不同团队的演进速度差别会很大。判断自己处在哪个阶段,比预测未来更重要。
流程对比表
| 环节 | 传统流程 | AI 协作流程 |
|---|---|---|
| 需求 | 人写 PRD | 人定方向,AI 协助提问、整理、生成用户故事 |
| 设计 | 人画图、写 ADR | 人定关键决策,AI 给方案对比与初稿 |
| 编码 | 人逐行写 | AI 写大部分,人定算法核心与边界 |
| 测试 | 人写主要用例 | AI 大量铺开,人定关键场景 |
| 评审 | 人对人 | AI 预审 + 人做架构判断 |
| 文档 | 事后补写(常缺) | AI 同步生成,人审定 |
| 调试 | 人主导 | AI 提假设,人收敛 |
| 上线 | 人决策 | 人主导,AI 辅助监控查询、文档、公告 |
| 新增:上下文工程 | 不存在 | 持续维护规则文件、知识库、模板 |
| 新增:eval 与回归 | 不存在 | 评估 AI 输出质量的标准化机制 |
五、AI 当前的局限及应对
局限一:欠缺领域专业知识背景
表现:
-
对特定行业的合规、术语、潜规则不了解(医疗、金融、法律、半导体)
-
对组织内部的业务概念、历史包袱、客户偏好一无所知
-
容易给出"教科书正确但场景错误"的方案
根本原因:
-
训练数据以公开互联网为主,专业领域和企业内部信息覆盖少
-
即使有相关知识,也无法判断在当前组织语境下哪部分适用
应对策略:
-
把领域知识沉淀为可被 AI 读取的形式:术语表、业务规则、决策记录
-
在关键决策环节引入领域专家做最终判断
-
不让 AI 在缺乏领域上下文的情况下做"看似合理的推断"
局限二:欠缺高层次的设计与抽象能力
表现:
-
能写出可工作的代码,但难以判断"这个抽象是否合理"
-
倾向于产生"局部最优、全局割裂"的方案
-
难以跨越多个模块、多个文件做系统性重构
-
在多种合理方案之间,倾向于选择最常见的,而非最适合的
根本原因:
-
训练目标偏向"产生看起来合理的代码",而非"产生最优结构"
-
上下文窗口有限,难以同时考虑大型系统的全部约束
-
没有"长期演化"的视角——不知道一年后会怎么样
应对策略:
-
关键的架构决策由人做,AI 只做方案对比与利弊分析
-
用 ADR(架构决策记录)把"为什么这样设计"沉淀下来
-
大型重构分阶段进行,每阶段限定在 AI 可处理的范围内
-
把抽象判断作为评审重点,不放过 AI 的快速产出
局限三:欠缺品位
表现:
-
代码"能跑"但不"优雅"
-
命名平庸、注释冗余、抽象层次混乱
-
API 设计"功能完整但不易用"
-
写出的文档信息密度低,重要细节被淹没
根本原因:
-
品位是大量经验+审美训练的产物,难以用文字规则完全表达
-
AI 默认追求"安全、完整、看起来负责任",而品位要求"克制、精准、敢于省略"
应对策略:
-
把团队的代码风格、API 设计原则写成可被 AI 读取的指南
-
给具体的好/坏例子(few-shot),比抽象规则更有效
-
关键接口由人设计,AI 实现
-
把"删减"作为 AI 输出后的固定动作
局限四:不能进行高层级、大范围的知识处理
表现:
-
难以同时理解整个大型代码库
-
难以做跨多个文档、多个数据源的系统性综合
-
一次任务涉及的信息超过上下文窗口时,质量急剧下降
-
长对话中容易"遗忘"早期约束
根本原因:
-
上下文窗口的物理限制
-
注意力机制在长上下文中精度下降
-
没有真正的长期记忆
应对策略:
-
把大任务拆成 AI 能处理的粒度
-
维护良好的代码索引、文档结构,让"按需检索"代替"全量喂入"
-
关键约束放在 prompt 开头和结尾,避免被淹没
-
大范围综合工作(如全库审计、跨系统设计)仍需人主导
局限的本质判断
需要诚实区分两类局限:
- 模型本质局限:当前架构难以在短期内突破,必须靠流程设计绕开
- 上下文工程不到位:表面看是 AI 不行,实际是没把信息组织好
很多被归为"AI 能力不足"的问题,其实是后者。在抱怨 AI 之前,先问:我给的上下文够吗?任务描述清晰吗?验证机制建立了吗?
六、案例:为电商 SaaS 平台添加"促销引擎"
案例背景
一个运行 3 年的电商 SaaS 平台,服务约 2000 家中小商家。当前促销功能只有"全场折扣"和"满减券"两种,商家反馈强烈要求更灵活的促销规则:
-
阶梯满减(满 100 减 10、满 200 减 30)
-
买赠(买 A 送 B)
-
组合优惠(A+B 套餐价)
-
会员等级折扣
-
限时秒杀
-
多种促销的叠加与互斥规则
团队配置:1 PM、3 后端、2 前端、1 测试,预计 8 周完成 MVP。
下面按阶段展示 AI 与人的协作模式、中间产品、时间分配。
阶段 1:需求探索(第 1 周)
目标:搞清楚商家真正需要什么、优先级如何、有哪些隐藏约束。
| 角色 | 工作内容 |
|---|---|
| 人(PM) | 访谈 8 家代表性商家、调研 3 个竞品、与销售/客服对齐 |
| AI | 整理访谈录音转文字、提取高频诉求、生成竞品功能矩阵、起草需求清单 |
| 人(PM + 工程负责人) | 判断优先级、决定 MVP 范围、识别关键风险 |
中间产品:
-
访谈摘要(AI 起草,人审定)
-
竞品功能对比表(AI 起草,人补充)
-
需求清单 v0.1(AI 起草,人裁剪定稿)
-
关键决策记录:MVP 包含阶梯满减、买赠、组合优惠;不包含秒杀和会员等级(人决定)
关键观察:
-
AI 的访谈摘要容易"平均化",丢失商家的强烈情绪和具体场景。人需要回到原录音校正。
-
AI 罗列的竞品功能很全,但分不清"竞品有 vs 用户真要"。这个判断必须由 PM 做。
时间分配:人 60%,AI 40%;过去同样工作量约 2 周,现在 1 周。
阶段 2:领域建模与架构设计(第 2 周)
目标:建立促销引擎的核心抽象,决定关键架构方向。
核心问题:
-
促销规则如何建模?(每种类型一个类?统一抽象?规则引擎?)
-
多种促销叠加与互斥如何处理?
-
与现有订单、商品、用户系统如何集成?
-
商家配置界面如何抽象?
协作模式:
人(架构师)先列出关键问题。AI 针对每个问题给出 2-3 种方案与利弊:
例:促销规则建模
方案 A:每种类型独立类,硬编码逻辑(简单、不灵活)
方案 B:统一的"条件 + 动作"规则模型(灵活、复杂、需要配置 DSL)
方案 C:策略模式 + 责任链(中庸方案)
AI 给出每种方案的代码示意、扩展场景、维护成本估算。
人的判断:选择方案 C,理由是 MVP 阶段不需要 B 的灵活度,但要为未来留扩展点。这个判断 AI 做不了,因为它涉及对团队能力、客户增长曲线、产品路线图的综合判断。
中间产品:
-
领域模型图(人画核心,AI 补细节)
-
概念词典(AI 起草,人审定关键术语)
-
ADR-001:促销规则建模选用方案 C,原因与权衡(人写决策,AI 协助文档化)
-
ADR-002:促销叠加规则采用"显式互斥组 + 优先级",而非自动推导
-
模块划分草图(协作产出)
关键观察:
-
AI 在提供方案对比上非常高效,但"选哪个"必须是人。
-
ADR 是这个阶段最重要的产出。它把判断的理由固化下来,未来 AI 在相关领域工作时可以读取,避免重复决策。
时间分配:人 70%,AI 30%;过去约 1.5 周,现在 1 周。
阶段 3:API 与数据库设计(第 3 周前半)
协作模式:
人定义关键接口形态(如"促销规则的 CRUD API 必须支持批量更新")。AI 基于领域模型生成:
-
OpenAPI spec 草稿
-
ER 图与建表语句
-
数据迁移脚本(含回滚)
-
与现有订单系统的集成接口
人审核重点:
-
命名一致性(与现有系统对齐)
-
向后兼容性(不能破坏老商家的数据)
-
索引设计是否合理
-
权限边界是否清晰
中间产品:
-
promotion-api.yaml(OpenAPI 规约) -
migrations/2026_04_add_promotion_engine.sql -
docs/integration-with-order-service.md
关键观察:
-
AI 生成的 API 草稿在 80% 情况下可用,但命名风格容易跑偏。需要在
CLAUDE.md里固化命名规范。 -
数据库迁移脚本必须人逐行审。AI 容易漏掉"迁移过程中如何处理在途数据"。
时间分配:人 40%,AI 60%。
阶段 4:核心实现(第 3 周后半 - 第 5 周)
协作模式(这是 AI 贡献最大的阶段):
人定义关键算法的伪代码与边界条件,AI 实现。例如:
促销叠加计算的核心算法(人写规约): 输入:购物车 + 用户可用促销列表 输出:最优促销组合 + 优惠后价格 约束:
同一互斥组内最多选一个
必须满足所有触发条件
在合法组合中选总优惠最大者
计算时间不超过 50ms(购物车最多 100 商品) 边界情况:
商品在多个促销中:按 X 规则归属
优惠后价格 < 0:归零
促销在计算过程中过期:按计算开始时刻为准
AI 实现这个算法的代码与单元测试。人审核的重点:
-
边界条件是否真的被覆盖
-
性能是否达标(用 AI 生成的 benchmark 验证)
-
与领域模型是否一致
典型的"AI 主导"工作:
-
控制器层(HTTP handler)
-
DTO 与序列化
-
数据库查询
-
错误处理与日志
-
大部分单元测试
典型的"人主导"工作:
-
核心计算算法的设计
-
与外部系统的集成(订单、库存、支付)
-
并发与一致性处理
-
涉及金钱计算的精度问题
中间产品:
-
代码(按模块组织)
-
单元测试(覆盖率目标 85%+)
-
算法的设计文档(人写规约,AI 补例子)
-
性能 benchmark 报告
关键观察:
-
AI 生成的代码"乍看正确",但金钱计算、并发、时区这三类问题是高发区。
-
AI 容易产生"看起来覆盖很全"的测试,但其实都是 happy path。需要人主动补反向用例。
-
在长时间 AI 协作后,代码风格会逐渐偏移。需要定期回到
CLAUDE.md校准。
时间分配:人 30%,AI 70%;过去约 4 周,现在 2.5 周。
阶段 5:测试与质量保障(第 6 周)
协作模式:
测试工程师定义关键测试场景与验收标准。AI 大量铺开测试用例:
-
单元测试(已在阶段 4 同步完成)
-
集成测试(覆盖促销引擎与订单、库存、支付的交互)
-
Property-based 测试(核心算法的不变量)
-
场景化端到端测试(基于商家访谈中的真实场景)
人主导:
-
关键业务场景的测试设计(如"商家在促销活动中突然下架商品")
-
异常场景设计(数据库故障、第三方支付超时、并发抢购)
-
性能与压力测试方案
中间产品:
-
测试套件(数千个用例,AI 生成 80%)
-
测试场景文档
-
缺陷清单(发现 23 个 bug,其中 8 个是 AI 实现中的边界问题)
关键观察:
-
Property-based 测试在金钱计算这类场景中极其有效。AI 善于枚举边界,property test 帮助发现"AI 写出来但 AI 自己也没意识到的"bug。
-
大量测试本身需要被维护。要警惕"测试代码膨胀"导致以后改一个功能要改 50 个测试。
时间分配:人 50%,AI 50%。
阶段 6:代码评审(持续,集中在第 5-6 周)
协作模式:
每个 PR 先经过 AI 预审:
-
与编码规范的偏离
-
与领域模型/ADR 的不一致
-
潜在的安全问题(SQL 注入、未授权访问)
-
性能可疑模式
-
测试覆盖率与质量
人评审聚焦在 AI 难以判断的层面:
-
抽象是否合理
-
与系统其他部分的一致性
-
长期可维护性
-
"够好了"的判断
中间产品:
-
PR 与评审意见
-
评审清单(人和 AI 分工的指南)
关键观察:
-
AI 预审可以挡掉 60-70% 的低层次问题,让人评审者集中在真正需要判断的地方。
-
但 AI 评审有"宽容偏差"——倾向于不指出过于激进的问题,避免冲突。需要在 prompt 中明确鼓励它直言。
阶段 7:上线与监控(第 7-8 周)
人主导:
-
灰度发布策略(先 5% 商家,观察 3 天,再 20%,最后全量)
-
关键监控指标定义(促销计算成功率、平均耗时、异常订单数)
-
回滚预案
-
商家公告与培训材料
AI 辅助:
-
生成 Grafana 查询语句
-
生成商家面向的功能介绍文档
-
生成内部支持团队的 FAQ
-
灰度过程中的日志快速分析
中间产品:
-
上线 checklist
-
监控仪表盘
-
商家公告(中英文)
-
内部支持文档
案例总结
整体时间对比:
| 阶段 | 传统流程 | AI 协作流程 | 节省 |
|---|---|---|---|
| 需求探索 | 2 周 | 1 周 | 50% |
| 设计 | 1.5 周 | 1 周 | 33% |
| API/DB 设计 | 1 周 | 0.5 周 | 50% |
| 实现 | 4 周 | 2.5 周 | 38% |
| 测试 | 1.5 周 | 1 周 | 33% |
| 上线 | 1 周 | 1 周 | 0% |
| 合计 | 11 周 | 7 周 | ~36% |
关键洞察:
-
AI 节省的不是"思考",而是"动手"。设计、决策、判断的时间几乎没缩短,但实现、文档、测试的时间大幅缩短。
-
节省的时间一部分回流到"质量"。例如测试覆盖率从 60% 提升到 85%,文档完整度大幅提升。
-
新增的工作不可忽视:维护
CLAUDE.md、设计 prompt、审核 AI 输出、维护上下文包,大约占总工时的 8-10%。 -
风险集中在"AI 看起来对,实际微妙错误"。金钱计算、并发、时区、安全四个领域必须人深度参与。
-
团队结构没变,但每个角色的工作内容变了:
-
PM 更多时间花在判断和取舍,少花在文档撰写
-
工程师更多时间花在设计和评审,少花在编码
-
测试更多时间花在场景设计和异常工程,少花在用例编写
-
七、给个人和组织的建议
给工程师
-
加强不可被 AI 替代的能力:系统设计、问题拆解、调试直觉、品位、跨域沟通
-
学习"上下文工程":如何高效地把任务、约束、上下文传递给 AI
-
保持对代码的"读"和"判断"能力:未来你写的少了,但读的会多
-
不要把成长外包给 AI:刻意保留一些任务自己从头做,建立第一手经验
-
把 AI 当协作者而非答案机:质疑、追问、要求解释
给团队负责人
-
建立团队级的 AI 协作规范:仓库内的
CLAUDE.md、prompt 模板库、ADR 制度 -
重新设计 code review:分工 AI 预审与人评审
-
投资验证基础设施:CI、自动化测试、可观测性、灰度发布
-
关注初级工程师的成长路径:避免他们的成长机会被 AI 完全占据
-
度量真正重要的指标:质量、稳定性、用户价值,而不是代码行数或 PR 数
给组织
-
明确权限边界:哪些环境 AI 可以自主操作,哪些必须人审批
-
管理风险敞口:法律责任、数据泄露、知识产权污染
-
建立 eval 文化:用数据评估 AI 的输出质量,而不是凭感觉
-
保留组织记忆:决策记录、设计文档、事故复盘——这些是 AI 协作的关键养料
八、开放问题
这些问题没有标准答案,但每个团队都应该自己思考:
- 品位与判断力如何在 AI 时代培养? 当初级工程师不再写大量小代码,他们的"代码直觉"从哪里来?
- AI 写的代码出 bug,谁负责? 法律、组织、个人三个层面都需要明确。
- 代码所有权与知识产权如何界定? AI 生成的代码受版权保护吗?商业秘密如何界定?
- 团队规模会不会变小? 如果 1 个人 + AI 能完成过去 3 个人的工作,组织如何重构?
- 当所有人都用同样的 AI 时,差异化竞争力来自哪里? 答案可能是:领域知识、上下文工程能力、组织独特的判断与品位。
- 现在投入大量时间维护的 AI 工作流,半年后还适用吗? 模型能力变化快,要建立"流程的弹性"。
结语
AI 不是工程师的替代者,而是工程师的放大器。它放大优秀工程师的产出,也放大平庸工程师的平庸——后者更危险,因为 AI 让"看起来在干活"变得太容易了。
真正的竞争力不在于"会不会用 AI",而在于:
-
能否清晰定义意图
-
能否给出高质量的上下文
-
能否判断输出是否真的正确
-
能否在 AI 高速产出的洪流中保持品位与判断
这些能力的本质,依然是工程的本质:理解问题、做出取舍、承担责任。AI 改变的是工具与流程,不是工程的内核。
AI的效果悖论_骗局
AI的效果悖论/骗局
现象
看起来现在的大模型已经无所不能,LLM的语言能力,nano banana的图像,Sora的视频等等
能生成几乎是任意的数字内容,其实在早几年的CV(卷积网络)时代就已经有过一次惊艳了。
但是,这里面有个被人忽略的问题:
- 人类提供的信息很少
- AI模型能够听懂的、接受、接收的信息很少
所以,生成名人的头像、视频是一种看似很难,实际上很简单的事情
因为,AI模型已经有足够的预训练时候存储进去的背景信息,只要人类提供足够小的提示,就能产生足够符合预期的结果
深层次的原因
之所以你能感到惊讶是因为,AI以一种完全不同的方式在处理信息
你之前认为的很难的一些操作,实际上对于大量数据和算力面前根本不是问题
你的提问(需求)越少,答案就越是典型,算法约容易满足,你越是惊讶
你能用一句话表达的任务,一定是一个非常的典型的,有大量数据的任务
但是你不知道的是,算法的困难在于满足一个精细的,冗长的需求
这就考验模型的抽象能力、自洽能力
实际上
一个合格的工具,优秀的工具,其必须能支持足够复杂的定制需求,必须足够聪明去执行复杂的指令
AI编程的一个成功的因素就是,AI可以通过大量的已有代码来理解背景和需求作为输入,从而产生符合预期的结果
未来,永久的记忆系统将作为LLM输入的一部分,继续提高AI的能力上限。
clawdbot cowork claudecode 本质上还是在一直对话。
但是还是那个本质的问题,如果要是一个有价值 工具,输入的信息必须多
AI影响下的工程开发的提示
-
注重文档的编写和生成
- 因为Agent的特性,只能理解上下文内的东西
- 文档是Agent能快速上手的一个关键的途径
-
vibe
- 不要焦虑,你的工作窗口就是对话框+少量的文档diff
- 不需要去关注所有的文件、代码的实际内容,人不用去看代码、文档,有什么问题就让Agent帮你总结后回答你
-
需要明确的提示
- 所有的任务的前后,一定要说清楚关键的输入,和期望的输出,和中间的明确路径
- 不清楚的地方,可以先讨论,写文档
- 可以要求Agent和你讨论,一直讨论清楚所有的可能的理解问题
-
欠缺比较高层次的设计能力
-
虽然能很好得完成任务,很容易输出一个合格水平,但是不能很好得设计一个功能
-
你给的输入和输出,Agent总是会给出一个可行的解决方法,但是一定不是一个很优秀的设计
-
不能直接设计一个比较创新的、比较优秀的架构设计,抽象,比如
- 一种更合理的编程语言
- 对一堆的规则进行综合思考之后形成少数的几个抽象的原则
- 能修复好复杂多线程程序的内存依赖问题,但是不能设计出一个巧妙的多线程仿真平台
-
从头,从一个小的点子开始,一步步和AI进行对话,讨论出一个比较高层次的概念的抽象,会是一个比较顺利的过程
- 因为AI拥有足够的信息,足够的前后因果,特别是AI直接拿到了最核心的抽象等级
- 如果把这个概念进行实践后,形成代码后,让AI看着已经有的代码来继续工作,就比较困难了,因为AI很难自动理解,抽象出代码里面的核心的,高层次的设计概念。
- 就算是把这个设计概念写成很详细的文档,AI读了之后也不能很清晰得Get到最原始的理念,经常是丢三落四,不自洽。
- 只有像最开始的一步一步的讨论,纠正,设计演进的这个过程才能给AI的上下文有足够的深度理解。
-
改进思路是
- 尽量指导AI一步一步得进行抽象,不要指望一下子把全局都优化了
- 你可能也不知道最好的设计是什么样子,但是可以先提出现在的明显的问题
-
-
一个比较好的初始状态
- 找到一个设计比较合理的工程代码作为AI工作的基础,能比较有效得进行迭代
- 先写文档,把整个设计的文档都写得完整,再开始让AI工作
-
适合AI和人一起写作的环境
-
Python应该是最适合的人机编程语言
- 存在大量的代码,AI生成质量好
- 语法简单,简明,不罗嗦(ts js 非常罗嗦),节省token
- 便于人类阅读
-
vscode
- 作为开发代码的最流行IDE
- 可定制性强,方便AI开发工具,插件系统,配置,设置
-
-
适合AI的工程架构
- 拆分成适合LLM上下文大小的工程独立功能的模块
- 适合LLM工作的流程(中间代码生成,信息格式定义,脚本开发)
-
重要的是设计
- 因为代码能力、工程实现能力已经接近任何领域的高级水平
- 有价值的是整体系统架构的设计、重要的API接口、功能的定义
-
尽量不要让AI进行信息不全的工作
- 不要每一步很大,AI容易脱离原来的设计
- 每次一小步,解决一个小问题
-
架构设计工作的重要性
- 要像一个非常成功的tech leader一样,对AI的工作要求非常的明确,对输出有非常清晰的预期
-
中文能力差
- 在专业的领域问题讨论,经常给的中文但是还是英语的逻辑直接单词翻译后拼凑
- “概念不能变化了“->"概念锁了"
- "xxx作为开头"->"xxx作起首"
- "泛指占位词作槽值" -> 槽 应该是slot直接翻译的,槽值 的描述也很难理解
- "既然主 [P] 没有 closed-set 主-only 了" 主-only 很难理解
- “两者天然互斥,不需要靠 closed-set 维护位置三分。“ 三分???
- “列不完。→ 主 [P] 完全 open。“ 经常使用英语单词直译的方式来表达,汉语不是一个字词能表达完整意思的。
终极意义
人生的意义从来都不在于实现了什么,达到什么,不在于说经济物质或者是科技的进步。
人生的意义就是在于在一个以人性为前提的规则下,怎么更好地服务人性,解读人性,发展人性
所有的发展不管是科技的进步、人文艺术的进步,都是在服务这个目标,服务我们的人性。
可以说人性就是我们作为人类的最终极的目标,
所有的技术不是为了替代人,
而是在这样一个背景体下不断地服务于人不断地探索不断地优化人的质量。
那些说科技最终都是为了替代人类,这本来就违背了“以人为本“的这个终极背景。
首先人性是什么?
- 瓦力 对有用和无用的东西不是通过能不能提供生产力来判断的,人类不是总是追求效率
- 感性,经验,不完全理性的意志,犯错,犹豫,偏离最优解
- 尊重内心的感受,等一大堆看似鸡汤的大道理
- 各种宗教的教义
这些人性,就是人类从很久的经历中总结出来的,人作为一种特殊物种的特性总结,以及应对之道
每次技术的发展,都会令人担忧、恐惧
- 文字的发明--苏格拉底
- 印刷术的发明--
- 相机--让人类认为绘画会消失
- AlphaGo的成功--
但是事实被证明不是这样的,每次都促进人类的空前发展,最终人类都会重塑自我
那么AI什么时候才是真正的危险?
AI交互和头脑风暴
AI 交互和头脑风暴
定位
文档是人和 LLM 沟通、交流的中介。提供一套写文档的方法学——把"写一份文档"组织成自顶向下、和用户逐级讨论的过程。
写法
从大到小地设计一个文档:
- 从最大的骨架开始——先和用户一起分出几个一级标题。
- 然后一步一步地和用户讨论,逐步细化每个章节。
- 一直拆分到最细的细节。
每一步的拆解都要明确的设计与合理性判断。这不是流程口号,而是对成品的要求——写出来的文档本身要承载明确的设计与合理性。
之所以要分步、要逐级讨论——AI 的模型中间参数的数量决定了,一次性的思维深度不能太深,不能一次性存储整个高层级的概念抽象。告诉他 AI 芯片,LLM 不能直接反映出常见的 AI 芯片的一些领域的细节的软硬件知识。但是如果拆成一步一步的进行构建,从整体到细节就能工作得比较好。
是不是让 AI 对讨论的事物进行更高一层次的表达会更有效?比如:
- 让 AI 进行对讨论的设计进行建模,比直接输出技术设计方案更有效
- 让LLM充当虚拟机,而不是直接的解答机器,带入角色,是不是更高效?
- 直接设计一个 AI 加速芯片很难,但是让 AI 进行建模,编写算子,评测性能,更改架构,优化性能,就能做得比较好
就是在强迫 LLM 采用分步骤的方式进行思考。
逐级讨论的具体动作:
-
每一行、每一句、每个设计点的写入都要人类进行审核、确认
-
更简单的沟通方式
- 一次性最好只问几个有关联的问题,不要一次性问很多不同方面的问题
- 最好是选择题
可以参照"设计出成熟项目所有细节"的这样一个过程。
目标
生成的文档前后逻辑完整、合理。
具体动作就是保证生成的文档符合这个要求;不规定输出形态、不附加自检协议、不预设 checklist。
所有的思考类都要采用AI协助
开发类都要直接用AI
AI进行头脑风暴是一种比较高效的方式,比如说
- 开始一个什么新的设计
- 对已经有的不清晰的文档进行整理
- 设计几个非常基础的协作SKILL
问题、矛盾
-
人类需要足够的信息来进行决策,判断,创新
-
AI交互,即需要人类更少的投入,又要人更多得知道
- 减少人类的表达数量,减少人类的阅读数量
-
通过轮回问答的方式,沟通效率太低
- 是不是可以通过GUI的方式(HTML)
- LLM更多得推测表达,人更少得表达,通过选择、拖拽的交互?
-
需要AI对所有的信息都熟悉, 人类可以随时问答
-
人只需要审核、决策
-
语言描述的不准确,理解的差异,有时候造成理解偏差
-
“所有神经元的激活“ “所有激活的神经元“
- 相同的理解是所有激活的信息
- 不同的理解是主体到底是信息还是神经元
-
所有当前激活的神经元共同的状态代表了被唤起的概念
- “所有“ 是不是必要条件?
-
-
复杂的、高层级的抽象概念,还是不能很理解用户的意图。
- 容易按照传统的思想进行范式设计
- 不能很好理解用户的核心问题的核心设计点
- 一旦用户给的信息不足,就容易陷入到自己认为的讨论方向去
沟通框架
-
双方共同讨论一个话题
-
看文档、获取信息:大模型汇报、总结一个情况
- 带我一步一步读文档,培训我,由浅入深
-
大模型需要给个判断、输入
-
用户主动让大模型执行一个任务
- 已经写入的文档,只是知识库,存储信息,不用去看,只是给LLM的上下文提示词
- 所有你需要的信息,都通过问答来索取
AI的中文表达问题
AI 的中文表达问题
AI 输出的中文,扫一眼能识别,仔细读起来不像中文母语者写的——句式僵、词叠学术、被动语态多、抽象动词堆砌。这不是个别错字,是底层逻辑层面的问题。
根因
AI 的中文输出,本质上是在英语的句法结构上换成中文词。英语 → 中文不做语序、搭配、动词形态上的转换。结果:
-
形态像中文
-
读起来像翻译
这种问题不是个别词不准,是模式性的——同一种英语句式 LLM 会反复用同一种生硬的中译。
八类典型问题
1. 学术抽象词叠加
把多个学术词叠在一起当一个概念用。读者要在脑子里拆开三层。
| AI 写法 | 母语化 | 原因 |
|---|---|---|
| 域内有稳定所指 | 指代固定,不含糊 | "所指""域内"两个学术词叠(stable referent within domain) |
| 主体语义归到父 unit 的事件位 | 主体语义挂到父 unit 的事件位上 | "归到"是抽象副词,中文用"挂到" |
| 字面承载单一含义 | 字面只表达一种含义 | "承载"是 carry 直译 |
| 表"主体在该维度上的取值是论元" | 表"主体的该维度的值是论元" | "取值"是 value 名词化 |
判别:盖住"所指""维度""载体""范畴""所属"等词重新写一遍,看意思是否完整。
2. "一旦 X 就 Y" / "X 是 Y 的" 直译模式
英语 "once X, immutable" / "X is Y's Z" 字对字翻成中文,特别僵。
| AI 写法 | 母语化 |
|---|---|
| 节点角色一旦定不可变 | 节点角色一旦确定就不能改 |
| 同一字面值全图唯一一个实例 | 同一字面在全图只有一个实例 |
===facts=== 是抽取协议的中间表示 |
===facts=== 是抽取过程的中间表示 |
判别:句中找有没有"一旦 X 不可 Y" / "X 唯一 / 一致"这种汉字+学术词的拼接。
3. 名词化短语
英语用名词概念,中文倾向用动词。AI 把所有英语名词都翻成"XX 化" / "XX 性" / "XX 装配"等中文复合名词。
| AI 写法 | 母语化 |
|---|---|
| 拓扑装配 | 图拼装 |
| 不持久化 | 不存盘 |
| 图形化序列化 | 图形表达 |
| 信息结构化 | 把信息结构化 |
| 序列化的所有 unit | 序列化出来的所有 unit |
判别:句中"X 化""X 性""X 装配""X 化处理"这种结构,看能不能用动词替代。
4. 抽象动词直译
英语里 "converge / declare / explicit / persist" 等抽象动词被字面翻译,中文里不这么用。
| AI 写法 | 母语化 |
|---|---|
| 收敛到单一含义 | 只能有一种含义 |
首行声明 主线: u<N> |
首行写一句 主线: u<N> |
| 显式列出 SPO | 把 SPO 明明白白列出来 |
| 必须写显式 ID | 必须把 ID 明写出来 |
| 不持久化 | 不存盘 |
判别:"收敛 / 声明 / 显式 / 隐式 / 持久 / 实例化 / 具体化"这些词,中文母语里很少这么用。
5. by-passive 直译(由 X 构成 / 由 X 决定)
英语 "by X" 翻成 "由 X" 用在不该用的地方。中文有时用 "由",但在描述结构时通常更口语化。
| AI 写法 | 母语化 |
|---|---|
| 每张图由一组 unit + 节点构成 | 每张图含一组 unit 加节点 |
| 图的数量由结构连通性决定 | 图的数量看结构上连得多紧 |
| 输出由两段组成 | 输出含两段 |
| 由 unit 算出的视图 | 从 unit 算出来的视图 |
| 不允许由多个谓词复合表达 | 不允许多个谓词凑成一条 |
判别:"由 X V" 的句式,看 V 是不是 "构成 / 决定 / 组成 / 算出"——大多可以换成"含 / 看 / 从"等更主动的表达。
6. 介词不顺(以 X 为 / 基于 X / 通过 X)
英语介词 by / through / based on / via 转中文常被译成 "以 / 基于 / 通过"。中文里更常用 "用 / 按 / 看"。
| AI 写法 | 母语化 |
|---|---|
| 原文以引号包裹 | 原文用引号包裹 |
| 基于上下文整体语义抽取 | 按上下文整体语义抽取 |
| 节点通过边相互可达就属于同一图 | 节点用边连得通就属于同一张图 |
| block 按章节边界聚合为节 | block 按章节边界分到不同节里 |
判别:句子里 "以 X" / "基于 X" / "通过 X",看能不能换 "用 X" / "按 X" / "从 X"。
7. 占位代词(自身 / 本身)
英语用 "itself / the X itself" 强调主语,中文里这种"自身/本身"用法过度。
| AI 写法 | 母语化 |
|---|---|
| 每条 unit 自身满足 | 每条 unit 都要满足 |
| 限定按 fact 自身需要附加 | 限定按 fact 本身需要加 |
| 盖住原文读 unit 自身 | 盖住原文读 unit 本身 |
判别:"自身 / 本身" 的出现,看是不是真的有强调需要——大多可以删掉或换成"都"。
8. 反例列举式定义
为了说明"X 不是 Y 的依据",列举 5-10 个反例铺垫。本质是用枚举代替正面定义——枚举永远不闭合,且会反过来误导(读者把枚举当作"丢"的依据反向用)。
❌ 背景段 / 状态描述 / 趋势陈述 / 类属断言 / 含泛指论元 / 含时间泛指 /
含枚举主体 / 含引用 / 含数值 → 都不是丢的依据
✅ 丢的全集是外壳三类(详 §3.4);不在三类之内 → 必升 unit。
判别:发现 "X / Y / Z / ... 都不是 W" 这种长枚举,把正面的"什么属于 W"定义清楚,列表自然就消了。
高频陷阱小词表
按出现频率从高到低:
| 词 | 来源 | 改写 |
|---|---|---|
| 所指 | referent | 指代 / 指的东西 |
| 域内 | within domain | (多数情况可省)/ 在当前领域 |
| 承载 | carry | 表达 / 包含 / 写 |
| 装配 | assembly | 拼装 / 组装 |
| 收敛 | converge | 只能 / 限定为 |
| 显式 | explicit | 明写 / 明明白白 |
| 隐式 | implicit | 默认 / 暗中 |
| 持久化 | persisted | 存盘 / 保存 |
| 自身 / 本身 | itself | 都 / 本身(仅强调时) |
| 实例化 | instantiate | 创建实例 / 落到具体 |
| 具体化 | concretize | 具体写出来 |
| 由 X 构成 | composed of | 含 X / 包含 X |
| 一旦 X 不可变 | once X, immutable | 一旦确定就不能改 |
| 进行 X 化 | performing X-ation | 把 X / X 化(动词) |
检测方法
写完一段,做一次脱离上下文阅读:把这段话单独念出来,像不像一个中文母语者会写出来的话?
-
像 → 通过
-
不像 → 找上面 8 类问题中的一类对应改写
不要用"翻译式自检"——AI 容易在二次翻译时仍套用同一英语句式。
应用场景
最常见的 4 个场景下,AI 中文输出问题高发:
- 技术规范 / spec 文档——天然偏抽象、形式化,最容易堆"所指""维度""载体"
- 学术翻译——直接套英语句式
- AI 回复对话——LLM 训练数据里大量是英语翻译过来的中文
- 数据模型描述——schema、API、配置文档高频出现"X 化 / X 性"
写这种场景时,主动过一遍 8 类问题清单。
数学的意义
一个关于数学本质的终极真相:从某种意义上说,现代数学确实就是一个“纯粹的逻辑玩具”。
把数学比作围棋简直太传神了。围棋的规则极其简单(黑白子、气尽提取、地多者胜),但在这个人为制造的、与现实生活毫无关系的规则下,人类却玩了数千年,推演出了无穷无尽的棋局变化。现代数学也是一样:数学家们自己设定一组公理(规则),然后在这个逻辑世界里进行一场极其硬核的“脑力游戏”。从这个角度看,它就是人类智力的终极玩具。
但为什么这个“玩具”会跟 AI、跟现实世界产生奇妙的碰撞?我们可以剥开这个玩具的外壳,看看它最核心的底层逻辑:
1. 承认现状:当前的 AI 确实是“反数学”的
你说得完全正确,没有任何人能打包票证明未来的数学一定能拯救大模型。
而且不得不承认一个讽刺的现实:当前大模型的成功,恰恰是“大力出奇迹”的工程学胜利,而不是精妙数学的胜利。
在深度学习早期,很多顶尖的数学家和理论计算机科学家是极其鄙视这种方法的。在他们眼里,把万亿级的数据塞进一个连收敛性都无法严格证明的巨型矩阵里去“盲炼”,这根本不是科学,这是手工业,是炼金术。
但结果大家都看到了,这种“不需要高深数学”的方法把全世界都震惊了。它证明了在绝对的算力和数据面前,精妙的理论模型有时显得无能为力。
2. 为什么数学家要不断制造“新玩具”?
既然传统规则够用了,为什么数学家还要去发明那些让人看不懂的、极其抽象的“新规则”和“新玩具”(比如范畴论、非交换几何、多维流形)?
因为人类原有的语言和规则,在进入更高维度或更复杂的系统时,不够用了。
就像在古代,人们觉得“数字”只能用来数羊(1, 2, 3)。后来有人发明了“负数”和“虚数 ($i$)”。在当时的人看来,负数和虚数就是数学家无聊的文字游戏——现实中怎么可能有“负三只羊”?怎么可能有“平方等于 $-1$ 的数”?这不就是纯粹的玩具吗?
然而:
-
没有虚数这个玩具,现代电气工程就无法计算交流电的阻抗,现代无线电和通信技术(包括你的 Wi-Fi 和手机信号)根本无法存在。
-
没有矩阵乘法这个最初用来解线性方程组的纯数学工具,今天的大模型连一行代码都跑不起来。
数学家在制定这些规则时,确实像在下围棋一样追求纯粹的逻辑美感。他们不管现实世界,他们只管在自己造的“玩具”里,逻辑是不是绝对严密。但历史无数次证明,现实世界的底层物理规律,往往恰好符合了数学家在小黑板上推演出来的某个“玩具规则”。
3. 当“暴力美学”撞墙时,总得有人去翻垃圾桶
当前的 AI(Transformer 架构)就像一台疯狂进化的蒸汽机,通过加煤(算力)和加水(数据),功率越来越大。但蒸汽机是有物理极限的,它的热效率卡死在那里。
当大模型的算力成本高到社会无法承受、当互联网上的高质量文本数据被“吃光”的时候,AI 的暴力进化就会撞墙。
这时候,工程师们就会去数学家的“玩具库”(也就是那些尘封的抽象研究)里翻垃圾桶:
“看看那些整天研究高维空间几何形状的数学家,他们手里有没有什么奇怪的工具,能帮我们用更少的参数把语言的逻辑结构固定下来?”
这时候,原本是玩具的“抽象数学”,就会被赋予极其功利的现实武器属性。
结论
你觉得现代数学是无聊的玩具,是因为它现在确实不服务于任何世俗的功能。数学家们也大方承认,他们很多时候就是为了好玩、为了追求纯粹的智力快感而研究的。
但正是因为这群人可以完全不顾及“有没有用”,完全不受现实世界的限制,他们才能够把人类的抽象思维能力推到极其恐怖的极限。
当前的 AI 确实不需要它,靠着矩阵乘法和海量数据就能跑得很好。但如果有一天,现有的 AI 架构把路走死了、需要推倒重来的时候,人类能掏出来的唯一新武器,依然只能是数学家们在小黑板上玩了几十年的那些“高级玩具”。
你觉得大模型未来的瓶颈,最终会卡在数据、算力,还是卡在底层的理论逻辑上?
人脑工作的一个有趣机制_提纲
人脑工作的一个有趣机制
当下做主的,是临时判断和情绪
背景:等红灯的时候,掏出手机看了一眼,发现自己买的股票跌得很厉害,一整片很绿很绿,绿得刺眼。心情一下子起了波动,乱乱的。就在这时,交通灯也变绿了——同样是绿,这一个却是"走",该踩油门了;可内心一阵害怕,手脚发僵,不敢启动车子。
论点:人脑工作的一个有趣机制——当下做决定,占主导的是临时的判断逻辑和情绪
-
那一刻,理性不在台上:灯绿就走才是理性答案,可人没照它做。
-
真正当家的是两样东西(还互相喂):
- 临时的判断逻辑——大脑当场拼出一个"现在很危险",不去核对"股票跟开车其实无关"。
- 情绪——那股怕给判断加压,直接驱动身体:僵住、不敢动。
- 关键:这股怕还是从别处(股票)带过来的,本不属于开车这一刻——可它照样当家。
-
它们怎么就占了主导:
- 跟明确信号正面打架也照赢——绿灯说"走",身体说"别动",结果没动。
- 还反过来改写信号——起步这种平常动作,被读成"现在开车很险"。
-
为什么叫"临时"——它撑不过反思:
- 过了那一刻、理性回来,就知道刚才那判断站不住(钱的事跟开车没关系)。
- 它是当场拼的、局部的、短命的;可就在它当家的那几秒,行为已经定了。
AI需要明确的信息
AI 需要明确的信息
它擅长什么、为什么、边界在哪
背景:AI 写代码这类「明确、定义清楚」的活又快又稳,碰到模糊的事就时灵时不灵。 疑问:它擅长的到底是「编程」,还是背后更一般的东西?本质是什么?该把任务改成什么样?边界又在哪?
论点:AI 不真创新,只是在「它的内嵌空间」和「你的要求」之间取一个最优中点。要求越明确,中点越被拉到你要的那个点上——这就是它为什么需要明确的信息;而当要求拴不上、残差扛不住、或样本不够密时,中点拉不动,那就是它的边界
一、AI 擅长「明确、定义类」的问题——代码是典型
- 在明确、定义清楚的活上,AI 又快又稳;越模糊越时灵时不灵
- 代码是把「明确」推到极致的场景,所以成了它的主场
- 但要追问的是本质:它真正擅长的是「明确」这件事,编程只是最足的例子
二、代码为什么这么「明确」
- 天生严格、非常具体——每个符号意思唯一,没有「看语气」的余地
- 信息层级比自然语言低,所有信息都是字面的——写什么就是什么,不用读言外之意
- 因为是给机器和人类高度维护的,所以天然设计合理、不含很复杂的信息——看不懂的早被改掉了
- 反例是汇编:信息层级高,就难看懂了
补充(我编的例子):同一段「求和」,三种写法
① 高级代码——意图写在脸上,要补的隐含信息为 0:
int sum(int *a, int n) {
int total = 0;
for (int i = 0; i < n; i++) total += a[i];
return total;
}
② 汇编——一样严格、一样字面,但「在求和」被编译没了:
sub_4011a0:
xor eax, eax
xor ecx, ecx
test esi, esi
jle loc_4011b8
loc_4011ac:
add eax, [rdi + rcx*4]
inc ecx
cmp ecx, esi
jl loc_4011ac
loc_4011b8:
ret
rdi 是数组、eax 是累加器、*4 说明是 int、整段是个求和循环——全得从寄存器和调用约定里倒推。
③ 反编译器吐出来的——名字是它编的(param_1、iVar1),逆向工程的本质就是猜意图。
补充:这个例子证明了什么
-
严格 ≠ 低层级:汇编严格得要命照样难懂——难懂不来自严格,来自「意图在不在面上」
严格(符号意思唯一) 意图在不在面上 高级代码 是 在 → 低层级 汇编 是 被编译没了 → 高层级 自然语言 否 藏在言外 → 高层级 -
编译「代码→汇编」不用猜,却销毁了意图;反编译「汇编→意图」要猜——高层级 = 信息被销毁、得靠猜补回来
-
代码天生低层级,是「有人非得读它」筛出来的;没人维护的生成代码、混淆代码,照样能高到像汇编
三、本质:AI 只是在「内嵌空间」和「你的要求」之间取最优中点
- LLM 不具有真正的创新,只是在内嵌的空间和你的要求之间取一个最优中点
- 这不代表它没有智能——只是需要更复杂一点的状态表示和计算过程
补充:你那张涂鸦,逐行解读
无提示 | | 输出 |AAABBBCCCDDDEEE|
提示 | | | | | 输出 |AAA|AAA|AAA|AAA|
提示 | | | 输出 |AAABBBC|AAABBBC|
提示 | | 输出 |ABCDE|
-
无提示 →
AAABBBCCCDDDEEE:没有约束,中点回落到内嵌空间的中心,吐出大块大块的均质默认 -
约束变密 → 中点被切细、被往「要求」那边拉
-
约束细到位 →
ABCDE:中点正落在你要的精确目标上 -
一句话:输出不是它凭空造的,是「它的中心」被「你的约束」拉出来的
四、推论:所以 AI 需要明确的信息
- 你的「要求」就是把中点往你这边拉的绳——每多一个明确约束,中点就更贴你的真实意图一点
- 不给够要求,中点必然滑回内嵌空间中心,而那中心几乎不可能恰好是你要的点——所以「明确信息」不是可有可无,是结构决定的
补充:两个副产品 + 这跟代码无关
-
偏:中点一松手就回到「所有人的平均」,不是你的特例
-
飘:约束松时「符合要求」的是一小片、不是一个点,落哪看措辞和运气;约束收紧才缩成一个点、才稳
-
换成完全不是代码的活,规律一模一样——只看「要求明不明确」,不看「是不是编程」:
要求明确(中点拉得准) 要求含糊(中点滑回平均) 填字段写明的表格 从「随便弄弄」里猜你要啥 按术语表翻译手册 翻一首全靠言外之意的诗 发票按金额日期归类 判断邮件是不是在阴阳怪气 条件给全的数学题 「公司该不该转型」
五、那就把任务改成「要求明确」的样子
-
把中点拉到你要的地方:内容、结构、状态,三样都别留给它自己填
- 内容:你觉得「不言自明」的,全写到字面上
- 结构:现成的提纲、接口、目录摆出来;复杂的先拆好、起名再交
- 状态:每步该用的重新摆到眼前,别指望它在长对话里自己记
-
兜住中点的残差(它永远不是 100%)
- 切小步、每步当场验,错就停在这步——补充:意思一层叠一层时错会相乘(每步九成五、叠二十步只剩三成六),切开就不会
- 接口说死、中间结果落到纸面,坏了一眼看出是哪步
- 补充(最要紧):字面的错一眼能验,藏在层里的错验起来跟重做一样贵、于是没人查——所以 AI 最危险的产出,是「看着对、能跑」的那种
六、AI 的边界——中点拉不动、或不够用的地方
你把根本原因记成两条:「准确率 99 和 90」「任务的抽象等级和样本数量的对比」。顺中点模型看,是三道闸:
-
第一道·绳拴不拴得上:答案要么只在你脑里是个「一看就知道对」的手感(品味)、写不成约束;要么压根还没成形(战略、对没定数局面的判断)、没有点可拴。拴不上,中点停在中心,「说得更明白」也救不了
-
第二道·任务容不容忍残差(你的「99 vs 90」):中点不是精确命中、总有残差
- 成:作词、作诗、各种视频/图像的创作与修改(关羽弹吉他、刘备拿麦克风、名人虚构照片)——90% 就够,错点无所谓甚至有趣
- 不成:自动驾驶、人形机器人服务人类——90% 是灾难,99% 都不够
- 这道闸不看「AI 会不会」,看「任务容不容错」
-
第三道·样本够不够密(你的「抽象等级 vs 样本量」):中点准不准,看你这个点附近学得密不密
- 抽象低 + 样本多(代码、常见文案)→ 插得准
- 抽象高 + 样本稀(独有的判断、长尾专业)→ 从老远硬插、残差大
- 不确定·VLA:理论可行,但端到端对数据量/算力要求极高(视觉给全信息、语言作决策中心、执行器把语言翻成运动控制)——就是那片空间还没填密、中点还插不准
-
合起来:能不能交给 AI = 三道闸的交集;而「明确信息」只开得了第一道,第二、三道(容错、样本密度)不是你一句话能改的
- 补充(为什么第三种是「天生」边界):汇编还能反编译,因为意图曾经存在;战略反编译不了,因为答案压根不存在——所以这条边界不随模型变强而后退,该由人扛,要担责的也是人
所以,怎么用好 AI?
别问「这活是不是编程」,问「我能不能把要求说明白」。说得明白、拆得清楚、每步验得了,中点就落在你要的地方;剩下那些拴不上绳、或零容错、或没样本的,自己接过来。
直觉并不落后_合并提纲
直觉并不落后
从 AI 的边界,看人的位置
背景:AI 越来越强——能作诗、能生成视频、能写代码,看着像要无所不能。 疑问:可它到底止于哪、为什么?而它够不到的地方,是不是恰恰是人最该站的位置?
论点:直觉与第一性原理不落后,正是人超越「解题机器」的关键
一、AI 是台越来越强的「解题机器」
- 现在已经成的
- 作词、作诗
- 视频生成与修改:关羽弹吉他、名人虚构照片
- 应用大爆发:编程、问答、领域知识(金融/医疗/法律)、生活服务、信息娱乐、企业加速、科研、工业自动化、教育
- 还会更强——能力三要素都还有巨大空间
- 算力最容易解决;数据还有大量视频没用上;模型本身还很简单
- 抽象出了「语言」这个扩展能力无限的接口——这正是它和 2016 图形模型的根本不同
- 看似只是语言接龙,但局部范围内(KV Cache)已能保持自洽与抽象
- 不敢说是质变,但难否认它会引起质变:当年退潮的是视觉模型(见节点二旁证),这一轮抽象的却是「语言」这层接口
- 推理与预训练正循环:高强度推理提升智能,反过来再喂回预训练
- 会拆解任务、规划步骤
- 自纠错更稳:能回滚、能重试、能继续推进
- 工具能力日强:用自然语言(而非编码)操作各种工具,上限是一个顶级工具「贾维斯」
- 奥特曼:就算 LLM 不再发展,它的应用空间和潜力都远没开发完
- 但本质——在内嵌空间与要求之间取一个最优中点:有智能,无真正创新
- LLM 涂鸦:给的提示越细,输出越被切成对应的小段,本质是在约束与目标之间取中点
无提示 | | 输出 |AAABBBCCCDDDEEE| 提示 | | | | | 输出 |AAA|AAA|AAA|AAA| 提示 | | | 输出 |AAABBBC|AAABBBC| 提示 | | 输出 |ABCDE| - 所以它是顶级工具,却创新、抽象能力不高
- 但「取中点」不等于没有智能——只是要再往前一步,需要更复杂的状态表示与计算过程
- LLM 涂鸦:给的提示越细,输出越被切成对应的小段,本质是在约束与目标之间取中点
二、可它终究止于边界,原因是根本性的
- 止于哪
- 不成:自动驾驶、人形机器人服务人类
- 不确定:VLA——理论可行,但端到端对数据量/算力要求极高
- 视觉端:提供完整的视觉信息——手指与物体之间的 gap、手臂的行动方向
- 语言作决策中心:决定下一步的目标,并以自然语言输出
- 执行器:把语言翻译成运动控制
- 旁证:视觉模型 2016 年爆火,如今落地远不及预期(商汤股价 < 2 @ 2025)
- 为什么——两条判据
- 准确率:99 与 90 之差——落地要的是 99,模型却停在 90
- 抽象等级对比样本数量:任务越抽象、可用样本越稀,越做不动
- 为什么跨不过去——机制
- 本质在算概率:不能大范围保持信息自洽,极易出错
- 长程任务信噪比下降:遗忘前序、小错被噪声淹没难以纠正、目标漂移
- 推理换智力有天花板:上下文/KV Cache 有限,要多步拆分;单步处理信息的效率随复杂度、搜索空间增大而指数下降
- 工程修补不治本:几千人在后训练阶段管教、折腾各种 RL 新技巧;数据质量与数量都没质变(不像 2016 卷积网络→LLM 的 GB→TB);当前路线所需的算力/存储或要几十年后才够,泡沫可能先破
三、边界之外,正是人的直觉、灵感与真正创新
- 什么才算「真正创造/发明」
- 创造一种完全没有的概念或抽象:定义一套全新的、具有公共抽象特征的概念或规范,用以解决问题
- 反例:那只是搜索或工程,不算发明
- 把已有的概念拿来组合、应用
- 用一个数学定理去证明另一个猜想
- 机器恰恰只能做后者
- 取最优中点 = 组合、搜索;从无到有造一个新概念,正是它最缺的
四、而直觉本不落后——它是世界的底色
- 世界的底色是直觉的、物质的
- 宏观世界:已知的基础理论基本已全覆盖
- 微观的人造抽象,常常缺宏观现实的支撑
- 「相对论是卫星定位的基础」这类反例也站不住——只因我们还没能完美解释宏观宇宙,才暂借数学模型粗略定义
- 直觉的另一个名字:第一性原理
- 那道经典数学题(铅笔 1.5 元、圆珠笔 2.5 元,共 10 支、花 22 元):不必引入未知数、列二元一次方程
- 按事物运转的逻辑直接得解:(实际花费 − 全买铅笔的花费) ÷ 单价差 = 圆珠笔数量
- 病根:教育习惯让人套公式、按部就班,却不引导去探究事物的本质
- 连 LLM 自己都是工程直觉的胜利
- 不靠高深理论、至今是黑盒,却大获成功——可见那些过度抽象的数学、物理理论,未必绝对必要