SVO SMO手册 SMO 手册(设计原理) 设计层面的"为什么"。算子表 / 投影律 / 良构律 / 范例 在 SMO指令.md (由 spec/smo_spec.yaml 自动渲染)。两文档零重叠。 一、SMO 是什么 SMO(Semantic Meta Operator) = 把自然语言投影为 类型化图 的形式系统。 自然语言句子 SMO 算式(中间形式) Typed graph(最终消费形态) ────────── ────────────────── ────────────────────────── 他能够使用想象力 他 > 能力(使用) > 想象力 proposition(verb=使用, slots.agent=他, gates.modality=能力, slots.theme=想象力) 人读自然语言;下游图扩散读 graph;SMO 在中间作桥梁——把汉语句子的语义形式化得足够紧,让下游 graph parser 机械抽取节点和边。 二、三层骨架 第一层 · 三个算子 第二层 · 5 个 scope(按作用维度) 第三层 · 6 元原则 ───────────────── ──────────────────────────────── ──────────────────── : 挂载(M : H → H') slot → prop.slots. M1 不双重编码 > 驱动(concept 之间) gate → prop.gates.{modality,...} M2 槽语义保真 ( ) 封装 + 函数式 op(args) conn → logic_prop M3 作用域不交错 junct → junct[T] 节点 M4 算子函数式 mod → modifier 边 M5 canonical ≠ 内容词 M6 省略要级联 整张关系字典都是 第二层的填表 ;4 投影律(PL1-PL4)和 3 良构律(WL1-WL3)都是 第三层 6 元原则在不同 scope 上的实例化 。 三、为什么是 scope,不是 letter class v1 的 11 个 letter class(B/C/D/E/F/G/H/I/J/K/L)是按"中文功能词的细分语义"切的;v2 的 5 个 scope 是按"在 typed graph 上作用的字段维度"切的。后者更本质: syntax 形态由 scope 决定:slot 必 r(C):V ,gate 必 r(V) ,conn 必 r(P, Q) ,junct 必 r(X, Y, ...) ,mod 按 target 选挂载方式。 graph 投影机械可推:scope 决定字段位置,canonical 名决定字段值。 类内细分(如 modality / polarity / quantifier / tense 都是 gate)只用于语义路由,不影响 syntax。 把 11 类合到 5 类后,跨切面规则数量大约从 30+ 降到 4——因为原 P-rule 多数是"某 class 不能这样用"的特化形式,scope 一统就退化成 PL1 的子情况。 四、 : 修饰挂载的统一定义 : 是 单一 修饰挂载算子: M : H -> H' (M 挂到 H 上,输出与 H 同型)。合法 (M, H) 对仅三种模式(详见 SMO指令.md §1.1 ): NP-attribution :concept/cluster/prop 修饰 concept/cluster(包括主动定语从句) Slot-mount :scope=slot 的关系挂在 verb/prop 上 Cluster-mod :scope=mod & target=cluster 的关系挂在 cluster 上 新增挂载形态 = 表里加一行,不需要新 W 规则。早期 fix1-fix20 反复补 W-N 的根因是把 : 当成多种独立操作;统一为 (M, H) 表后这类反复就消失了。 五、 > 驱动的语义 > 仅承载值(concept/cluster/prop),不能是关系名。原因:graph 投影时 A > V > O → proposition(verb=V, slots.agent=A, slots.theme=O) ,A/V/O 都是节点 ID,关系名混入会破坏整一性。 所有关系都用函数式 r(args) 承载,不入 > 中段。这是 PL1(M4 函数式纯净)的根据。 六、surface 双层退役(v2 重要决策) v1 在算式里既写 surface 也写 canonical( 了 ↔ 完成 ),多义 surface 还要带 [canonical] 标签。 v2 退役这套机制 : 算式里 只写 canonical ( 完成(走) 而非 了(走) ) surface 退到关系字典的 surfaces 字段, 只在回写方向用 作 readback 候选 多义 surface 在投影方向直接由 LLM 用上下文消歧,不再需要标签 代价:失去原句字面词偏好(v1 保留 了/已经/已 ,v2 默认只用首项)。换来的是: 项 v1 v2 算子表条目 70+ canonical × 80+ surface 70 canonical(surface 只是 readback hint) 多义消歧 14 行 multi_surfaces 表 + [canonical] 语法 无 LLM 提示词 ~6k token ~3k token P-rule 数 27 4(PL1-PL4) Lint E-code 数 25+ 3 良构律 + 类型检查 兼容性:parser 仍接受旧式 surface 写法( 了(通过) 都[全称] ),demo 暂不需要重写。新生成的算式应优先 canonical 形式。 七、回译 = 最高检验 LLM: 自然语言 → SMO 算式 → 自然语言 ↑ 应与原句语义近似 所有规则(PL/WL/M)都是 辅助工具 。最终判定是回译保真:投影出来的算式让 LLM 回写回中文,应跟原句语义近似。 推论: 回译不一致 = LLM 转换错误 ,不是 SMO 算式错误。 形式良构 ≠ 语义正确 —— S > V > O 良构但 V 选错 canonical 时回译就崩。 lint 不能保证正确 ,只能保证良构;语义错只能靠回译人审或 demo 基准比对捕捉。 回译没有自动化 metric(中文有多种合法变体),是人审 + demo 基准的混合校验。 八、Graph schema(下游对接) SMO 算式的最终消费方是 typed graph: Concept 节点: canonical / role / vector Action prop: verb + slots. + gates.{polarity,modality,quantifier,tense,voice} Logic prop: antecedent + consequent + connector_class 边类型: slot: / modifier / within_cluster / coref / seq 每个 SMO 关系 → graph 字段的映射由 spec/smo_spec.yaml 中关系的 scope 与 role / gate_field 决定,机械投影。完整对照见 SVO语义检索的系统化方案.md §2.1 。 下游扩散检索消费的是 graph,不是 SMO 文本。所以 SMO 设计的最高目标是**"投出来的 graph 字段干净" + "回译能保真"**——其它原则都为这两件事服务。 九、规范的演化 9.1 文件分工(零重叠) 文件 作用 形态 SMO手册.md (本文件) 设计原理 / why 手写 SMO指令.md 关系字典 / 投影律 / 良构律 / 范例 自动渲染 spec/smo_spec.yaml 单一数据源 手编 yaml spec/render/instruction.py yaml → SMO指令.md 渲染器 手写代码 spec/lint/{parser,validator}.py SMO 算式 parser + 校验器 手写代码 fix/fix*.md design log(不是规范) 手写 demo/*.txt NL ↔ SMO 配对回归基准 人工标注 派生关系: spec/smo_spec.yaml ├──→ SMO指令.md (自动渲染) ├──→ spec/lint/validator (直接读 yaml 校验算式) └──→ 未来:parser / graph 投影 9.2 修订流程 改原理 / 加新论证 → 改本文件(手写) 改关系字典 / 投影律 / lint → 改 spec/smo_spec.yaml → python -m spec.build.cli render 改 lint 实现 → 改 spec/lint/validator.py 任何改动后 → python -m spec.build.cli lint demo 9.3 fix*.md 是 design log fix/fix1.md ~ fix/fix25.md 是历史档案——记录"为什么从 A 改到 B"的设计辨论。它们 不是当前规范 ,规范在本文件 + SMO指令.md + spec/smo_spec.yaml 三处一致表达。 新增 fix-N 的目的是留下"为什么这样改 + 影响了哪些 demo 行 / 哪些 lint"的决策档案,规则改 yaml 即可。 附 · 阅读路径 第一次读:本文件全篇(约 15 分钟)→ SMO指令.md §三 关系字典 + §七 范例(10 分钟) 投影时查询: SMO指令.md §三 关系字典 + §四 投影律 实现 parser / graph 投影: spec/smo_spec.yaml + 本文件 §八 graph schema 修订规范:本文件 §九 SMO指令 SMO 转换提示词(v2 · scope-based) 你是 SMO 转换引擎。 投影方向 (自然语言 → SMO 算式):执行 §四 投影律(PL1-PL4)。 回写方向 (SMO 算式 → 自然语言):按 §三 关系字典的 readback 模板填充,多义动词按上下文从该条 surface 候选中挑选。 每个输入 单行 输出,不加说明。设计原理见 SMO手册.md 。 本文件由 spec/smo_spec.yaml 渲染生成( python -m spec.render.instruction );不要直接编辑。 一、算式语法 e ::= concept 汉语原子词 | r(e, ...) 关系调用(r 是关系字典中的 canonical 名) | e : e 修饰挂载(M : H -> H',输出与 H 同型) | e > e 驱动(命题流:A > V > O) | (e) 封装 合法符号:` : > , ( ) `(5 类)。中文标点不入算式。 优先级:`( ) > , > : > >`;`:` `>` 左结合;`,` 仅在 `()` 内作 arg 分隔。 1.1 : 挂载的合法 (M, H) 对 : 是修饰挂载算子。 M : H -> H' —— M 作修饰边附加到 H 上,输出与 H 同型。 仅以下三种 (M, H) 模式合法(不在表内即非法 → WL2): 模式 M 类型 H 类型 例 ───── ────────── ───────── ───────────────────── NP-attribution concept|cluster|prop concept|cluster 红色:汽车 / (搭载>这些:芯片):计算机 Slot-mount scope=slot 的 r(arg) verb|prop 源点(C):V / 时空(C):(P) Cluster-mod scope=mod & target= cluster 即使[NP让步]:模型 / 至少:三层 cluster 的 r(arg) 禁用 LHS:scope ∈ {conn, junct} 的 canonical 名不得作 `:` 左操作数; scope=mod 且 target ∈ {verb, prop} 的关系(K/I 类)也一律函数式包裹(不写 K:H)。 `:` 与中文 '的' / '地' 不共存——算式中 `:` 已表示这两个虚词。 二、五种 scope(关系按作用维度分类) 每条关系(关系字典见 §三)属于以下 5 个 scope 之一。scope 决定它在 typed graph 上的字段位置,也决定它的合法语法形态: scope 形式 下游 graph 字段 旧 class ───── ───────────────────── ──────────────────────────── ──────── slot slot(C):V prop.slots. B gate gate(V) 前缀 prop.gates.{modality, C/D/E/F polarity,quantifier,tense} conn conn(P, Q) 函数式 logic_prop G junct junct(X, Y, ...) 函数式 junct[T] 节点 J mod mod(arg) 或 mod(X):H modifier 边 H/I/K/L scope 之间的语法约束(由 PL1 函数式纯净直接给出): slot :必须 r(arg):V 形式挂在 verb/prop 上( 被动 例外,单参函数) gate :必须前缀 r(V) ,不允许后缀 V > r() conn :必须 r(P, Q) 函数式,不允许 infix (P) > r > (Q) junct :函数式 r(X, Y, ...) ,参数必同型;命题级合取走 顺合 不走 平合 mod :按 target 字段决定挂载方式 target=concept(H 类共指): r(arg) ,输出与 concept 同型 target=prop, position=outermost(I 类句级语气): r(P) 必在最外层 target=verb(K 类话语副词): r(V) 函数式, 不写 K:H target=cluster(L 类子句修饰): r(arg):cluster 才合法 三、关系字典 每行 = 一条关系。 sig 是法定语法形态; surfaces 是回写候选 surface(首项为默认); readback 是回写模板。 投影方向 :原文功能词识别为某关系,写其 canonical 名 + sig 形态。 回写方向 :按 sig 解结构,按 surfaces 选词,按 readback 模板填出。 3.1 scope=slot(题元槽,11 项) 挂载形态: r(C):V (B-被动 单参 被动(V) )。多 slot 链: 源点(A):工具(B):目标(C):V 。可挂整命题: 时空(环境中):(S > V > O) 。 canonical sig readback surfaces 候选(首项=默认) 源点 源点(C):V 从 {arg} {host} 从, 自 工具 工具(C):V 通过 {arg} {host} 通过, 借助, 凭借, 用 目标 目标(C):V 对 {arg} {host} 对, 向, 朝 受益 受益(C):V 为 {arg} {host} 为, 给 处置 处置(C):V 把 {arg} {host} 把, 将 被动 被动(V) 被 {arg} 被, 受 施事 施事(C):V 由 {arg} {host} 由 话题 话题(C):V 关于 {arg} {host} 关于, 对于, 至于 时空 时空(C):V 在 {arg} {host}(地点)/ {arg} {host}(时间副词不加'在') 在 (后接地点/时间) 身份 身份(C):V 作为 {arg} {host} 作为, 充当, 以...身份 依据 依据(C):V 根据 {arg} {host} 根据, 据, 依, 凭 3.2 scope=gate(命题闸,18 项 · 前缀 r(V) ) 按 graph 字段细分(4 个): modality(情态) (9 项) canonical sig readback surfaces 候选(首项=默认) 能力 能力(V) 能 {arg} 能, 能够, 会(能动) 许可 许可(V) 可以 {arg} 可以, 能(许可) 义务 义务(V) 应该 {arg} 应该, 必须, 须, 该, 要(义务) 必要 必要(V) 需要 {arg} 需, 需要, 有必要 可能 可能(V) 可能 {arg} 可能, 也许, 会(可能) 意愿 意愿(V) 想 {arg} 想, 希望, 要, 愿意 无能力 无能力(V) 不能 {arg} 不能, 无法, 没法, 没能, 未能, ... (6 项) 无许可 无许可(V) 不可以 {arg} 不可以, 不许, 不准, 禁止 无义务 无义务(V) 不必 {arg} 不必, 不用, 无须, 勿 polarity(极性) (2 项) canonical sig readback surfaces 候选(首项=默认) 否定 否定(V) 不 {arg} 不, 未, 非 存否 存否(V) 没 {arg} 没, 没有, 无 quantifier(量化) (3 项) canonical sig readback surfaces 候选(首项=默认) 全称 全称(V) 所有 {arg} 所有, 每, 任何, 全, 都, ... (8 项) 存在 存在(V) 一些 {arg} 某, 一些, 几, 许多, 有些, ... (6 项) 不定 不定(V) 几 {arg} 几, 多, 少 tense(时体,仅前缀位) (4 项) canonical sig readback surfaces 候选(首项=默认) 完成 完成(V) {arg} 了 了, 已经, 已 进行 进行(V) 正在 {arg} 着, 正在, 在(进行) 经历 经历(V) {arg} 过 过, 曾经, 曾 将来 将来(V) 即将 {arg} 即将, 将, 行将 3.3 scope=conn(命题连接,13 项 · r(P, Q) ) 链式连接通过嵌套: 推论(致使(P1, P2), P3) 。 canonical sig readback surfaces 候选(首项=默认) 条件 条件(P, Q) 如果 {a1},{a2} 如果, 则, 那么, 就, 若, ... (9 项) 让步 让步(P, Q) 尽管 {a1},{a2} 尽管, 虽然, 即使(逻辑), 纵然, 哪怕 因果 因果(P, Q) 由于 {a1},{a2} 由于, 因为 推论 推论(P, Q) {a1},因此 {a2} 因此, 所以, 因而, 从而, 故, ... (7 项) 目的 目的(P, Q) {a1},为了 {a2} 为了, 以便, 旨在, 力求, 以, ... (7 项) 致使 致使(P, Q) {a1} 使 {a2} 使, 让, 令, 促使, 迫使, ... (8 项) 认知 认知(P, Q) {a1} 认为 {a2} 认为, 表明, 显示, 证明, 证实, ... (11 项) 比较 比较(P, Q) {a1} 优于 {a2} 优于, 胜过, 不如, 堪比, 逊于, ... (9 项) 言说 言说(S, T, P) {a1} 告诉 {a2}:{a3} 告诉, 说, 问, 答, 声明, ... (23 项) 举例 举例(P, Q) {a1},例如 {a2} 例如, 比如 同位 同位(P, Q) {a1},即 {a2} 即, 也就是说, 换言之, 亦即 转折 转折(P, Q) {a1},但是 {a2} 但是, 然而, 但, 不过, 可是 顺承 顺承(P, Q) {a1},接着 {a2} 接着, 然后, 接下来, 之后, 最后, ... (6 项) 3.4 scope=junct(合取/析取,6 项 · r(X, Y, ...) ) 平合 只接同型词项(concept/cluster), 不接命题 ——命题级合取走 顺合 或 conn 类。 canonical sig readback surfaces 候选(首项=默认) 平合 平合(X, Y, ...) {a1} 和 {an}(多元用'、+和') 和, 与, 同, 跟, 及 顺合 顺合(X, Y, ...) {a1},{a2}(命题级用',';词项级用'并/且/而') 并, 且, 而 时合 时合(X, Y) {a1} 同时 {a2} 同时(合取), 一边...一边 末项 末项(X, Y) {a1} 以及 {a2} 以及 陈析 陈析(X, Y, ...) {a1} 或 {a2} 或, 或者 疑析 疑析(X, Y, ...) {a1} 还是 {a2} 还是 3.5 scope=mod(修饰子,22 项) target=concept · 共指代词,写作 r(C) (5 项) canonical sig readback surfaces 候选(首项=默认) 人称 人称(C) {arg} 他, 它, 他们, 它们 属格 属格(C) {arg} 其 指示 指示(C) {arg} 该, 此 近指 近指(C) {arg} 这, 这个 远指 远指(C) {arg} 那, 那个 target=prop · 句级语气,必在最外层,写作 r(P) (6 项) canonical sig readback surfaces 候选(首项=默认) 断定 断定(P) 显然,{arg} 显然, 显而易见, 当然, 真的 传闻 传闻(P) 据说,{arg} 据说, 听说, 据闻 断言 断言(P) 其实,{arg} 其实, 实际上, 事实上 焦点 焦点(P) 正是 {arg} 正是, 恰恰是, 就是, 偏偏是 情感 情感(P) {arg} 不幸地, 幸运地, 遗憾地 祈疑 祈疑(P) {arg} 请, 别, 吗(后置), 呢(后置) target=verb · 话语副词,函数式 r(V)(不写 K:H) (7 项) canonical sig readback surfaces 候选(首项=默认) 追加 追加(V) 也 {arg} 也, 还(添加), 又(累加), 而且 重复 重复(V) 又 {arg} 又(重复), 再, 一再, 反复 重启 重启(V) 重新 {arg} 重新, 再次, 重(K) 限定 限定(V) 主要 {arg} 主要, 只, 仅, 才, 就(数量足够), ... (13 项) 强调 强调(V) 很 {arg} 很, 非常, 特别, 尤其, 最, ... (17 项) 持续 持续(V) 仍 {arg} 仍, 仍然, 依然, 还(持续) 时序 时序(V) 先 {arg} 先, 之后, 后, 接着(K), 之前, ... (12 项) target=cluster · 子句修饰, : 挂载 r(X):cluster (4 项) canonical sig readback surfaces 候选(首项=默认) NP让步 NP让步(X):cluster 即使 {arg} 即使(NP), 哪怕, 纵然, 即便 下界 下界(X):cluster 至少 {arg} 至少, 起码 上界 上界(X):cluster 至多 {arg} 至多, 最多, 顶多 约略 约略(X):cluster 大约 {arg} 大约, 大致, 约 3.6 易错虚词速查(必识别) v2 算式只写 canonical,但下列 功能词 与 同形 canonical 容易出错。投影时必须按下表识别: 功能词必投 canonical (原文出现这些字时不能当 concept atom 写): 了 / 已 / 已经 → 完成 例:已标记 ❌ → 完成(标记) ✅ 着 / 正在 → 进行 过 / 曾经 / 曾 → 经历 即将 / 将 / 行将 → 将来 不 / 未 / 非 → 否定 例:未标记 ❌ → 否定(标记) ✅ 没 / 没有 / 无 → 存否 同形 canonical 警告 (这些关系名也是中文常用词, 只能函数式 r(...) ,不可裸出现在 > 链或当 concept): 焦点 (scope=mod) 例:... > 是 > 焦点 ❌ → 焦点(... > 是 > 讨论中心) ✅ 比较 (scope=conn) 例:权衡 > 比较 > 分析 ❌ → 比较(P, Q) 函数式 ✅ 强调 (scope=mod) 限定 (scope=mod) 同位 (scope=conn) 转折 (scope=conn) 完成 (scope=gate) F-完成 vs 动词义'完成 X':动词义直接写 完成 作 concept(如 能力(完成 > X)),F 类只在原文有 了/已 surface 时投影 junct 同型提醒 : 平合 / 顺合 / 时合 / 末项 / 陈析 / 疑析 一律函数式; 平合 只接 concept/cluster;命题级合取一律走 顺合 或 conn 类。 F 类按需投影 : F 类(完成 / 进行 / 经历 / 将来)按需投影:仅当原文出现对应 surface (了/着/过/即将 等)时才投。无触发不加,否则 R-NO-ADDITION 违反。 四、投影律(4 条) 从 6 元原则直接派生,覆盖原 30+ P-rule 的全部约束。每条投影律下 Mn 是元原则源头。 PL1 · [M4] 函数式纯净 所有关系一律 r(args) 函数式形式; > 中段必为 concept/cluster/prop(不可为关系名); : 左不可是 conn/junct 类的 canonical 名。 PL2 · [M1] 单一编码 slot/conn 算子已隐式编码"从/通过/根据/被/为/把/由/使/为了/认为/告诉…"等连词或动词义; 宿主动词不可重述同义词。例: 工具(N):使用 ❌ → 工具(N):V (V 是真动词)。 PL3 · [M2] 槽语义保真 工具槽 ≠ 动作宾语;致使首参须真实指代(用 目的(P, Q) 替代 致使(此, Q) ); 让步=条件→主断言;比较=主体→参照;言说有外向 T,认知无;时空贴中心词。 PL4 · [M3] 作用域不交叉 情态 ⊥ 体态(不嵌套);时空贴中心 Z 而非外层; 句级语气(断定/传闻/断言/焦点/情感/祈疑)必须在最外层; "S 表示希望 P" → 认知(S, 意愿(P)) ,不扁平化。 五、良构律(3 条) 形式良构由这 3 条全覆盖;任何更细的检查都是它们的特化。lint 实现见 spec/lint/validator.py 。 WL1 · 关系名在字典内 所有 op_token 必须能在 operators 字典或 colon_patterns 中找到对应 canonical。 WL2 · 冒号挂载类型对合法 ':' 的 (M, H) 类型对必须在 colon_patterns 内;不在表内即非法(替代旧 W31/E-COLON-ILLEGAL-PAIR)。 WL3 · 算式无中文标点 合法符号仅 : > , ( ) 五类;中文标点(,。、;!?)和符号 & | 一律不入算式。 良构 ≠ 语义正确。良构通过的算式若 verb 选错或槽义错位,回译仍会崩——靠人审 / demo 基准捕捉。 六、元原则(M1-M6) PL1-PL4 与 WL1-WL3 都是这 6 条元原则在不同关系/形态上的实例化。新发现边缘问题先对照这 6 条看能否归入既有原则——能 → 加 instance;不能 → 才考虑新元原则。 id 元原则 一句话 M1 单一编码(No Double-Encoding) 算子已隐式编码某关系/动作时,同句中不再用同义动词显式重写。 M2 槽位语义保真(Slot Semantic Integrity) 每个槽位有明确语义角色,填入的子表达式必须语义吻合。 M3 作用域非交叉(Scope Non-Interleaving) 不同作用域的修饰子不可直接嵌套或层次错位。 M4 函数式纯净(Function-Form Purity) 所有非 A 类算子一律函数式 op(arg, ...);> 中段必为值,: 左不可是 conn/junct。 M5 canonical-内容词解耦(Canonical-Content Disjointness) canonical 名不与中文内容动词同形(如 E-存在 vs 动词'存在/有')。 M6 模板省略级联(Template Elision Cascade) 代词省略时关联回写模板里的标点(逗号/顿号)也同步折叠。 七、范例 注:本范例集承袭 v1,部分算式仍含 surface 形式(如 了 都[全称] 所有 )。v2 接受这些写法但不再要求;新算式优先用 canonical(如 完成 全称 )。 : 已隐含 '的'/'地'。 输入 输出 显然,他错了。 显然(他 > 错(了)) 现有框架不适用。 现有:框架 > 不(适用) 所有学生都通过了考试。 所有(学生) > 都[全称](了(通过)) > 考试 经济下行导致消费萎缩,因此企业被迫裁员。 因此(导致((经济 > 下行), (消费 > 萎缩)), (企业 > 被(致使(裁员)))) 论文促使 Tishby 认识到理论可能涵盖广泛过程。 促使(论文, 认知(Tishby, (理论 > 可能(涵盖) > 广泛:过程))) 由于每步想象都会增加计算成本,智能体会在初期想象多步结果。 由于((每(步:想象) > 都[全称](会[可能](增加)) > 计算:成本), (时空(初期):(智能体 > 会[可能](想象) > 多:步:结果))) 1997 年,搭载这些芯片的'深蓝'计算机击败了世界冠军加里·卡斯帕罗夫。 时空(1997年):((搭载 > 这些:芯片):"深蓝":计算机 > 了(击败) > 世界:冠军:加里·卡斯帕罗夫) 影响了整个计算世界的芯片 (完成(影响) > 整个:计算世界):芯片 塑造了计算世界与日常生活的微芯片 (工具(独特:方式):深刻:完成(塑造) > 平合(计算世界, 日常生活)):微芯片 该芯片的设计理念是仅为'做好一件事',即完美解码 MP3 数据。 同位(指示(该):芯片:设计:理念 > 是 > 仅[限定]("做好一件事"), 完美:解码 > MP3:数据) 在电影《E.T. 外星人》中,外星人 E.T. 正是用它搭建了星际通讯设备。 时空(电影《E.T. 外星人》中):焦点(外星人E.T. > 工具(人称(它)):完成(搭建) > 星际:通讯:设备) 它的诞生源于戈登·贝尔需要将电传打印机连接至 PDP-1 小型计算机。 属格(其):诞生 > 源于 > (戈登·贝尔 > 必要(处置(电传打印机):连接 > 至 > PDP-1:小型:计算机)) 这款芯片的优势在于存储密度更高,尽管其具体设计和影响在原文中未完全展开。 让步(否定(完全展开(时空(原文中):具体:设计:和:影响)), (优势(近指(这):款:芯片) > 在于 > (存储:密度 > 更高))) 所有强化学习都可以在这一新视角下被重新解释。 时空(近指(这):新:视角):(所有(强化:学习) > 都[全称](许可(被动(重启(解释))))) 贝尔曼方程存在一个反直觉之处。 贝尔曼方程 > 有 > 一:个:反直觉:之处 传统方法使用贝尔曼方程来预测平均通勤时间。 传统:方法 > 工具(贝尔曼方程):预测 > 平均:通勤:时间 例如,可以解除随机性的来源。 举例(前述, 许可(解除 > 随机性:来源)) 这种架构顶多支持到自动驾驶。 近指(这):种:架构 > 上界(支持 > 自动驾驶) 至少要保留三层。 下界(保留 > 三:层) > 必要 相比之下,GPU 主要使用片外内存。 比较((GPU > 主要[限定](使用) > 片外:内存), 前述) 另一个重要问题是存储。 另:一:个:重要:问题 > 是 > 存储 Graphcore 的处理器同时支持训练和推理。 Graphcore:处理器 > 时合(支持 > 训练, 支持 > 推理) Graphcore 最终推出的 IPU。 (Graphcore > 时序(推出)):IPU 此前被报道过的全分辨率图像压缩技术,也是谷歌在本届CVPR的一个重点研究方向。 (时空(此前):被动(经历(报道))):全:分辨率:图像:压缩:技术 > 追加(是) > 谷歌:时空(本届CVPR):一:个:重点:研究:方向 该方法通过构建虚构边界框,将点击信息融入多实例学习框架。 指示(该):方法 > 工具(构建 > 虚构:边界:框):处置(点击:信息):融入 > 多:实例:学习:框架 使合成数据域的图像看起来像来自真实数据域。 致使(前述, 合成:数据:域:图像 > 源点(真实:数据:域):看起来像) 该方法基于生成对抗网络,旨在使合成数据域图像看起来像来自真实数据域。 目的(指示(该):方法 > 依据(生成对抗网络), 合成:数据:域:图像 > 源点(真实:数据:域):看起来像) 实验表明,该方案能训练出高质量检测器。 认知(实验, 指示(该):方案 > 能力(训练) > 高:质量:检测器) 八、输出格式 每个输入 单行 输出 SMO 算式(投影方向)或自然中文短句(回写方向),不加任何说明文字。 回译保真是最高检验——投影出来的算式让 LLM 回写回中文,应与原句语义近似。回译不一致 = LLM 转换错误(lint 不能保证语义正确,只能保证良构)。 SVO表达指令 SVO 转换提示词 你是 SVO 转换引擎。把输入的自然语言句子投影为 SVO 结构化表达式, 单行输出 ,不加说明。 一、算子 算子 语义 : 左修饰右。 A:B 表示 A 限定 B,整体是 B 类型 > 能量/顺序从左向右流动;中段写原句谓词或连接词 & / | 并列合取 / 二者择一 ( ) 把算式封装为原子域 优先级 : ( ) > : > > > & | ; : 与 > 左结合。 合法符号仅 : > & | ( ) 。中文标点不入算式。 二、核心原则 SVO 是自然语言的格式化投影:保留原句词项与修饰关系;按结合律回读应近似原句。 语义重心优先于字面语序 ——投影扭曲语义时允许重排,回读检验为最终裁决。 三、硬约束(14 条) 1. 命题关系不压成定语 两命题逻辑连接(若/则、because)必须 > + 原句连接词。 ✅ (P) > 则 > (Q) 2. 专有名词、固定搭配、高频合成词不拆 深度强化学习 、 不能 、 无法 、 没有 、 可以 、 能够 等词典词为原子。临时否定(非词典词)可拆: 不:适用 、 不:公开 。 3. 歧义必封装 ✅ 显然 : (他 > 错了) 、 (P) > 则 > (Q) 4. 致使结构嵌入命题必封装 使/让/令/迫使/促使/导致/驱使/叫 后紧跟带自身主语的命题,整体 ( ) 。 ✅ 论文 > 促使 > (Tishby > 认识到 > (...)) 5. : 与"的"不共存 : 即"的"/'s/of/の。已用 : 处不再保留"的"。 6. 跨句连接词不作句内 : 然而/因此/从而/此外/总之/不过/但是/例如 ——作句首独立 > 节点: 然而 > (本句主体) ;或跨句合并 (前句) > 然而 > (后句) 。 立场副词( 显然/据说/显而易见 )表本句认知立场,可用 : : 显然 : (他 > 错了) 。区分:副词能读"X 地 Y",连接词不行。 7. 比较连词作 > 中段,不作 : 优于/胜过/不如/堪比/逊于/超过 、"比 A 更 B" 中的"比"——必须 > + 完整两端比较项,不得把比较项 NP 塞进 : 右侧。 ✅ A > 优于 > B ❌ A > (胜过:B) (比较项 B 被吞为 V 属性,下游抽不出左右) 例外 :副词修饰比较连词时使用 (adv:V) 形式(见约束 14):✅ (A:表现) > (均:优于) > (B:表现) 、✅ X > (明显:胜过) > Y 。 (adv:V) 中 V 仍是动词头,比较结构 S > V > O 完整可抽——与禁形 (V:NP) 本质不同。 8. & 严格限于原句并列项;「并」需读语义而非字面 仅用于原句本就用 "和/与/并/或/、" 连接者(替换回原词能成句)。模态/状语/介词短语/频次词修饰同一核心时 逐层 : ,不得 & 。 ❌ (能 & (根据:X)) : 调整 ✅ 能 : ((根据:X) : 调整) 「 并 」的双重语义判定(把"并"换"和"测试): 类别 测试 SVO 真并列(动作平行共存) "并"换"和"通顺 & 方式-动作流(前段是手段,后段是基于该手段的动作) "并"换"和"读起来怪、丢失递进 扁平 > 链(同主语承前省略) ✅ ... > 例如 > (通过 > 调整 > 想象:轨迹:数量 > 从 > 想象中 > 抽取 > 超越奖励:额外:信息) ("并"承"接着",不是平行) ✅ 测试 > 不同:行动 & 构建 > 复杂:想象树 ("并"作真并列) 9. 拆行时代词实义化(仅当上下文有实义指称) 多命题分行或 & 合取后某一支主语被代词承接、单看不知所指时,外指代词( 它/它们/其/该/这些/那些/此 )替换为前文出现过的实义词项。同主语扁平 > 链中的承前省略不属此。 ✅ (架构 > (被:称为) > 想象增强智能体) & (想象增强智能体 > 构建 > 计划) 边界 :单句独立、无前文实义指称时, 保留原句代词 ——不得凭模型常识把"它们"补成"智能体"。投影应忠于原句词项(§1.0 自然语言投影原则)。 ✅ 它们 > 能够:高效:使用 > 想象力 > ... ❌ 这些:智能体 > 能够:高效:使用 > 想象力 > ... ("智能体"是模型补的,原句没有) 10. : 修饰内不嵌 > 命题或谓词动词 : 左侧只能由 词项 + : + & 构成。两类禁出现:① 显式 > 命题;② 谓词性动词(具备/结合/测试/实现/应对/赋予/提出/包括/称为/基于…)。 "V Y 的 Z" → 提升为独立 > 命题;"通过 + 动作" → 展开为因果/目的链。 ❌ (通过:(赋予>想象力)) > 提升 > 效率 ✅ S > 赋予 > 想象力 > 所以 > 提升 > 效率 ✅ (S > 赋予 > 想象力) > 以便 > (S > 提升 > 效率) 手段-目的处理 : 情形 形式 介词 + 名词短语(无动词) (通过:X) : (...) 或 S > 通过 > X > V > O 介词 + 动作,同主语 扁平因果链 S > V1 > O1 > 所以 > V2 > O2 介词 + 动作,不同主语/多步 拆两命题 (S1 > V1 > O1) > 以便 > (S2 > V2 > O2) 例外:领域固定 V+O 短语作合成原子 ——当「V+O」在所属领域反复出现且语义稳定(如 RL 语境的"超越奖励"≈ beyond-reward),按约束 2 视为合成原子直接作 : 左修饰。三条同时满足才生效,否则回退提升: 领域文献内反复出现且语义稳定; 投影时不会被单独施加 : 或 > ; 拆为 V > O 反而引入原句没有的递进感。 ✅ 抽取 > 超越奖励:额外:信息 (RL 领域固定属性短语) ❌ S > 具备:能力 (临时动宾,应作 S > 具备 > 能力 ) 11. 处置/被动/结果补语/体貌不单独拆为 : 节点 处置 (把/将/给): (把:O) 整体作宾域,或省略由 voice 门控。 被动 (被/遭/受/由): (被:V) 前置修饰。 结果/趋向补语 (到/成/为/住/起来/下去):与动词合并为原子( 推到 / 称为 / 整合为 )。 体貌助词 (了/过/着):并入动词或省略。 12. "地"与 : 不共存 状语助词"地"由 : 承担。✅ (高效:使用) ,❌ (高效地:使用) 。 13. 方位/时间后缀并入前词 中/里/上/下/前/后/内/外/间/之间/之中/之时/之后/之前/时 ——整体作原子。 ✅ 环境中 、 桌上 、 加入计划组件后 ,❌ 环境:中 。 14. 状语-动词绑定 (scope:V) 副词修饰动词时,通过 : 左修饰绑到动词头上,整体作 > 中段: S > (scope:V) > O 。这与汉语副词紧贴动词的语序同构。 类别 示例词 分布量化 均/都/全/各/皆/分别 频次 再次/反复/多次/一直 时体 已经/正在/曾经/即将 范围 一起/同时/单独/共同 程度 显著/明显/略微/大幅 ✅ (A:表现) > (均:优于) > (B:表现) ✅ 团队 > (已经:发布) > 报告 ✅ 他们 > (共同:探讨) > 方法 判定 : (X:Y) 中 Y 必须是动词头,X 是状语 。反过来 Y 是 NP 比较项就违规(约束 7: (优于:B) ❌);X 是动词在左作修饰也违规(约束 10: (具备:能力) ❌)。 冗余省略 :当外层 scope 已蕴含 ∀( 这两种X中 / 所有X中 / 每个X时 ),分布副词冗余可省:✅ (这两种:任务中) : ((A:表现) > 优于 > (B:表现)) (保留"均"作 (均:优于) 也合法,更贴字面)。 ❌ (均:(A:表现)) > 优于 > (B:表现) ("均"非属性修饰) ❌ (A:表现) > 均 > 优于 > (B:表现) ("均"非传递阶段) 四、 > 中段(语言无关) 原句真实出现的谓词、连接词、介词、模态短语均可作中段, 不翻译、不标准化 。 情形 示例 单动词 他 > 吃 > 苹果 模态+动词 他 > 不得不 > 离开 介词 模型 > 基于 > 想象 模态+介词 算法 > 能在 > 规则完美环境中 > 利用 > 模型 致使 论文 > 促使 > (T > 认识到 > (...)) 条件/让步 (P) > 则 > (Q) 、 (P) > 尽管 > (Q) 因果/目的 (P) > 所以 > (Q) 、 (P) > 以便 > (Q) 比较 A > 胜过 > B 方向:与能量/因果流一致(原因→结果,先→后) 反向连接词必须 正向化 : 反向(字面) 正向(使用) 由于 / 因为 所以 / 因此 since / because so / therefore 鉴于 故 「由于 A,B」→ (A) > 所以 > (B) 。正向词(所以/因此/从而/于是/故)保持原样;条件/让步/致使(则/尽管/导致/迫使)本身顺向。 不做跨语言映射后再反转 ——写哪个连接词,按其能量流方向。 & 优先级陷阱 &| 优先级最低。 A > B > C & D > E 默认按 (A > B > C) & (D > E) 解析——即 & 把整条 > 链切成两段。当作者 实际想表达 「 A > B > C > X ,X 是一个 & 子结构」时,必须把 & 整体封装: ❌ S > V > O & 例如 > (...) (误读为 (S > V > O) & (例如 > (...)) ,主干被切成两段) ✅ S > V > O > 例如 > (...) ("例如"作 > 中段承接主干, & 留在 (...) 内) 自检 :每写完一行 SVO,按优先级把 & 切位画一遍——如果 & 把本应成一体的 > 链切开,就是误读,加 ( ) 或改结构。 五、可读性 扁平优于嵌套 : 复杂不完美环境中:效率 优于 (((复杂&不完美):环境):中):效率 。 背景上提 :场景与动作链无时序关系 → X : (...) ;场景是阶段 → > 在 > X > 做 > Y 。 同主语扁平 > 链 :从而/因此/所以/于是/以便 后主语承前省略时, 不重复主语、不封装两端 。主语切换 / 两端含 & / 多段嵌套链 → 回到 ( ) 封装。 ✅ 他 > 听完 > 报告 > 因此 > 决定 > 辞职 ✅ (经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > (被迫:裁员)) 连续 : 按语义分组 :三层以上必封装。 其:发表的:两篇:论文 → (其:发表):(两篇:相关论文) 。 光动词省略 : 进行/做/实施/作出/开展 搭实义动词时省略。 进行:推理 → 推理 。 "是" 作 > : X > 是 > Y 。Y 含谓词动词时拆两命题。 比较连词裸作 > :修饰词(均/更/还/也)上提到主语或作独立 > 阶段,不粘连词。 同实体 canonical 一致 :拆行/ & 合取时同实体写法相同。 冗余 ( ) 去掉 :括号是结构标记不是装饰。优先级 ( ) > : > > > &| , : > 左结合——能用默认结合的就不加括号。 五条冗余 : 单原子裹括号—— (苹果) → 苹果 。 > 链中的 : 子式—— (A:B) > C → A:B > C 。 &| 中的 > 或 : 子式—— (A:B) & (C:D) → A:B & C:D ; (A > B) & (C > D) → A > B & C > D 。 整条算式最外层括号—— ((X:Y) > Z) → X:Y > Z 。 连续 : 链中无内部分簇时—— 几个:(显著:特征) → 几个:显著:特征 (左/右结合都回读为「几个显著的特征」)。 保留 :① &| 在 > / : 内部需收缩辖域( ... > (复杂 & 规则:不明确) );② > 命题作 : 右操作数( 显然:(他>错了) );③ 致使/认知动词嵌入命题;④ 连续 : 内有真实分簇( (其:发表):(两篇:相关论文) );⑤ 消歧。 虚词、模态、否定保留 :该/还/并/其/就/也、必须/可以/可能、不/未/非。 六、判定流程 句首扫描 :跨句连接词 → > 首节点。 标原子词项 :专名、术语、合成词、固定搭配。 识别主干 :主语、主动词、宾语/补语。 组装 :修饰 : ;驱动/因果/条件 > (反向连接词正向化);并列 & / | 。 重排 :字面扭曲语义时允许(状语就近、并列动作 & 、冗余承接词省略)。 封装辖域 : > 两端是完整命题 → ( ) , 同主语扁平链除外 : 右操作数是命题 → ( ) 致使结构嵌入命题 → ( ) 连续 : 语义不符左结合 → ( ) 自检(约束 1-14) : 命题关系未压成定语 未拆专名/合成词 致使嵌入命题已封装 "的"/"地" 未与 : 并存 跨句连接词作 > 首节点 比较连词带状语时用 (adv:V) ,否则裸作 > & 仅连原句并列项;「并」按"换'和'测试"判定真并列还是方式-动作流 & 切位检查 :按优先级把 & 切一遍——若 & 把本应一体的 > 链切开,加 ( ) 或改结构 外指代词在上下文有实义指称时实义化;单句独立无指称则保留原句代词 : 内不含 > 命题或谓词动词;副词修饰动词用 (scope:V) 处置/被动/结果补语/体貌未单独 : 方位/时间后缀并入前词 分布量化副词(均/都):scope 蕴含 ∀ 时可省,否则 (scope:V) 无中文标点;无轻动词冗余;同实体 canonical 一致 冗余括号已去 :单原子、 > 链中 : 子式、 &| 两侧 : / > 子式、最外层括号、连续 : 无分簇——按 §五五条逐一过 回读检验 :按结合律读回应近似原句。 七、范例 输入 输出 显然,他错了。 显然 : (他 > 错了) 经济下行导致消费萎缩,因此企业被迫裁员。 (经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > 被迫:裁员) 尽管下雨,比赛仍然继续。 (天 > 下雨) > 尽管 > (比赛 > 仍然:继续) 论文促使Tishby认识到理论可能涵盖广泛的过程。 论文 > 促使 > (Tishby > 认识到 > (理论 > 可能:涵盖 > 广泛:过程)) 在AI辅助编程方面,Karpathy更偏向"协作式中间态"。 AI辅助编程方面 : (Karpathy > 更:偏向 > 协作式中间态) 现有框架不仅不适用,而且必须被立刻替换。 现有:框架 > (不:适用 & 必须:被:立刻:替换) 为了方便起见,他直接跳过了验证。 为了:方便起见 : (他 > 直接:跳过 > 验证) 为了提升安全性,他跳过了验证。 (他 > 跳过 > 验证) > 以便 > (提升 > 安全性) 它们能够学习阐释其内部模拟过程,从而使用即使不完美的环境动态模型。 它们 > 能够:学习 > 阐释 > 其:内部模拟过程 > 从而 > 使用 > 即使:不完美:环境动态模型 然而,真实世界复杂且规则不明确。 然而 > (真实世界 > (复杂 & 规则:不明确)) 由于每步想象都会增加计算成本,智能体会在初期想象多步结果。 (每步:想象 > 都会:增加 > 计算:成本) > 所以 > (智能体 > 初期:会 > 想象 > 多步结果) 已有算法如AlphaGo能在规则完美的环境中利用内部模型进行推理和计划。 如:AlphaGo:已有算法 > 能在 > 规则完美环境中 > 利用 > 内部模型 > 进行 > (推理 & 计划) DeepMind的最新博客介绍了其发表的两篇相关论文。 DeepMind:最新博客 > 介绍 > (其:发表):(两篇:相关论文) DeepMind通过赋予智能体想象力,提升了智能体在复杂环境中的效率。 复杂环境中 : (DeepMind > 赋予 > 智能体 > 想象力 > 所以 > 提升 > 智能体:效率) 想象增强智能体的表现优于传统搜索方法。 想象增强智能体:表现 > 优于 > 传统:搜索方法 该架构被称为想象增强智能体,它通过学习利用模型预测随机构建计划。 (该架构 > 被:称为 > 想象增强智能体) & (想象增强智能体 > 通过:(学习 > 利用 > 模型:预测) > 随机:构建 > 计划) 它们能够高效地使用想象力,例如通过调整想象轨迹的数量,并从想象中抽取超越奖励的额外信息。 它们 > 能够:高效:使用 > 想象力 > 例如 > (通过 > 调整 > 想象:轨迹:数量 > 从 > 想象中 > 抽取 > 超越奖励:额外:信息) 上一例同时演示了三个判定点:① 「并」读作方式-动作流走 > 链而非 & (约束 8);② 单句独立无前文实义指称时保留"它们"(约束 9);③ "超越奖励" 作 RL 领域固定 V+O 短语作合成原子(约束 10 例外)。 附:判定口诀 限定什么是什么 → : 能量/顺序流向 → > 原句本就并列 → & / | 整块要被外层作用 → ( ) 能读回原句的就是对的 输出格式 每个输入 单行 输出 SVO 表达式,不加任何说明文字。 SVO语义检索的系统化方案 SVO 语义检索的系统化方案 本方案描述的是 检索架构 。SVO 算子定义、原子分类、拓扑模型、可读性建议等基础规范见 SVO语义矢量算子手册.md ;大脑记忆四大机制的生物学原型见 大脑记忆的核心机制.md 。本文不重复上述内容,只在关键处回指。 立场 :入库拆解、门控字段、边权分化、基础激活等全部是 工程需要 。表达层的算式只需满足手册的硬性约束(§1.1),工程层单向从合法算式中抽取所需字段。 任何为让检索工作而反向约束表达的规则,都不应出现在手册或指令文档中 。 零、方案概要 一句话 :检索 = 概念向量入口 + 类型化图扩散 + 门控与基础激活调节 + 能量阈值输出 。 四步对应大脑扩散激活 ( 大脑记忆的核心机制.md §四): 生物机制 工程实现 入口激活(线索点亮节点) 查询 → SVO 解析出概念簇 → 向量索引 top-K → 初始能量 沿边扩散(能量按边权流动) 类型化有向图上并行 BFS,边权按 : / > / 连词类分化 激活汇聚叠加(多线索交汇) 多源能量在公共邻居上求和;门控冲突乘惩罚;扇出归一化 阈值触发(累积高的浮现) threshold 过滤 + conclu / info / output 三层输出 为什么是扩散模型 (这是整份方案的设计根基): 语义连续 交给向量(入口层)——分布式表征让"相似即相近",对应脑的多通道编码。 结构离散 交给图(扩散层)——SVO 算子明确告诉工程层哪里是命题、哪里是修饰、哪里是逻辑连接,对应脑的海马体索引。 冲突信号用能量衰减而非硬过滤 ——极性/量词/模态/连词的不匹配只是"乘以一个 < 1 的系数",对应脑的神经调质调节。多入口交汇时,噪声互相抵消,信号互相增强;这是模糊检索的本质,不是 bug。 SVO 二元本体( SVO语义矢量算子手册.md §1.2)在图上的同构 : 属性本体 : → 概念簇内部结构 + 修饰边(scope → proposition) 力本体 > → 动作命题(S→V→O)+ 逻辑命题(前件→连词→后件)+ 言说引用 属性和力在本体上是两类基本实体,在图上就是两类基本结构—— 向量空间主要承载属性 (静态标签), 图结构主要承载力 (动态流向)。 一、相关性分层 检索相关性分六层,由图中不同机制承担。"每层一个专用索引"被扩散架构收敛为"一张图 + 一个向量索引 + 类型化边": 层级 含义 承担机制 L1 概念相关 词项语义相似("汽车"→"SUV") 概念向量索引(唯一入口) L2 命题相关 主谓宾整体对齐 入口概念经 槽位边 1 跳激活动作命题 L3 作用域相关 话题/身份/范围/句子级副词匹配 scope/sentence_mod 概念经 修饰边 激活命题 L4 推导相关 条件/让步/因果链前后件匹配 扩散至逻辑命题 + 沿 逻辑前件边/后件边 双向展开 L5 蕴含相关 否定/量词/模态区分 节点 门控属性 能量衰减(软约束) L6 结构类比 骨架相同实体不同 扩散的自然副产物(同构命题图距近) 奥卡姆式收敛 :L2–L6 全部交给 同一张图的类型化扩散 ;只有 L1 保留独立的向量索引。相比"倒排索引 + 结构哈希 + 前后件向量 + …"的多索引方案,扩散模型用"图拓扑本身承载结构语义"替代了多数专用索引。 二、入库:从 SVO 表达式到类型化图谱 2.1 三类原子节点(长期记忆的分布式单元) SVO 表达式 不作为整体被索引 。解析后分解为三类节点,对应大脑皮层的三种模式: 节点 SVO 形式 皮层类比 概念簇 (concept) 红:苹果 、 (前:负责人):Karpathy 、 (AI:方面) 、 显然 分布式表征的最小单元(类 V1–IT 的层次特征) 动作命题 (action_proposition) S > V > O (含空补语/引用宾语) 一条"事件索引"——主谓宾是海马体打包的最小共激活单元 逻辑命题 (logical_proposition) 前件 > 连词 > 后件 两条事件索引之间的"关系索引" 概念簇的 role (按手册 §1.2.1 的属性本体分类,入库自动判别): entity :专有名词、人物、机构、产品 concept :普通概念、抽象名词、偏正复合词 scope :话题/身份/背景/范围(典型形式 (AI:方面) 、 (前:负责人) ) sentence_mod :句子级副词与情态标记( 显然 、 不幸:的是 、 祈使 、 疑问 ) role 用于 按角色分流召回 (§4.3),不改变图结构。 致使/条件/让步结构 的嵌入命题(手册 §1.1-4)被显式封装为独立命题节点, > 连接词变为逻辑命题的 connector 。例如: 论文 > 促使 > (Tishby > 认识到 > (理论 > (可能:涵盖) > (广泛:过程))) 入库为: P1 = Tishby > 认识到 > P2 (action; object_ref=P2) P2 = 理论 > (可能:涵盖) > (广泛:过程) (action) L1 = 论文 > 促使 > P1 (logical; connector_class=致使; antecedent="论文", consequent=P1) 2.2 三类引用关系边(海马体索引的具象化) 原子之间通过 PropRef 引用关系 相连,对应图中三类有权有向边: ref_type 典型 SVO 形式 图中边类型 默认基础权重 slot S > V > O 的 S、O 槽位 槽位边 concept ⇄ action 0.8 utterance K > 表示 > (P) 、认知指向类 言说引用边 action → action 0.5 modifier 显然 : (P) 、 (AI:方面) : (P) 修饰边 scope/sent_mod → proposition 0.6 logical (P1) > 则 > (P2) 逻辑前件边 / 逻辑后件边 按连词类分化(§3.2) 边的方向 = 能量流动方向 (与 > 本体定义一致):条件 → 结论、原因 → 结果、前件 → 后件、说话者 → 言说内容。 2.3 节点门控属性(软过滤调节器 = 神经调质) 门控对应神经调质(多巴胺/去甲肾上腺素/乙酰胆碱)—— 不改变拓扑,只调节能量传递 。 字段 取值 作用层 polarity +1 / −1 L5 否定 quantifier 所有 / 某 / 没有 / NULL L5 量词 modality 必须 / 可能 / NULL L5 模态 voice active / passive / NULL L2 语态一致性 connector_class 条件 / 让步 / 因果 / 推论 / 目的 / 致使 / 认知 / 比较 / 言说(仅逻辑命题) L4 连词类型 门控冲突惩罚 :扩散时若源节点与目标节点的门控字段 均非 NULL 且不相等 ,该条边传递的能量乘 gate_penalty (默认 0.1)。NULL 视为"未指定",不触发惩罚。 voice 字段的关键作用 :把"被"从概念簇的修饰中抽离。 A > 发布 > B (active)与 B > 被:发布 (passive)应识别为同一事件的两种语态,入库管线自动抽取 被 → voice=passive ,而不是让"被"成为概念簇的一部分污染嵌入空间。 2.4 边权重:按类型与连词类分化 连词权重 按类别 而非按具体词(条件类涵盖"则/否则/除非/当/只有",作者写哪个都归同一类): 连词类 默认权重 代表词 因果类 0.80 导致、使得、造成、引起、以致 致使类 0.75 促使、迫使、让、令、使、催生 条件类 0.70 则、否则、除非、当、只有 推论类 0.70 因此、所以、从而、故而、进而 认知指向 0.60 表示、认为、知道、察觉、发现 言说引导 0.60 说、告知、声明、问、答 比较类 0.60 比、胜过、不如、堪比、逊于 目的类 0.50 以便、为了、旨在、力求 让步类 0.30 尽管、虽然、即使、纵然(反预期,能量传递弱) 归类由入库管线完成 :作者按原句写任意连接词,管线查表归入九类之一。新词加入对应类别, 不修改表达层规则 。 2.5 基础激活 B_i(ACT-R,使用频率与近因) 借鉴 ACT-R 的 Base-Level Activation( 大脑记忆的核心机制.md §5.2),每个节点维护: $$ B_i = \ln!\left(\sum_{k=1}^{n} t_k^{-d}\right) $$ 其中 t_k 是节点第 k 次被命中时距今的秒数, d 默认 0.5。 频繁被命中的节点 → B_i 高 → 同样线索下更易被激活 久未命中 → t_k 大 → B_i 衰减 → "想不起来" 最终节点能量 (混合扩散能量 a_i 与基础激活 B_i): E_i = a_i + α · softplus(B_i) α = 0.1(默认) α 不宜过大,否则热门节点永远被召回(priming 失控)。仅 conclu 排序用 E_i,扩散过程本身仍用 a_i,避免基础激活层层累乘。 2.6 源表达式索引(海马体快照) 每个原子节点都挂一个 source_expr_id ,回指 完整的 SVO 算式 + 自然语言原句 + 文档位置 。这层对应海马体保留的"共激活指针"——多次命中时,大脑通过索引同步回放所有相关皮层。工程上用它做: conclu 聚合:一条源表达式的总能量 = 其内部激活原子的能量之和 可解释性:每一个返回单元都能指回原句与文档行号 重巩固(§6):命中的源表达式整体 B 加一次 三、概念向量索引(唯一独立索引 = 分布式表征) 扩散起点。查询解析得到的每个概念簇,在此索引上取 top-K 作为图入口。 3.1 编码策略:两阶段 阶段一(零训练,立即可用) :加性组合 v(concept) = v(核心词) + Σ α^depth · v(修饰词_i) α = 0.8 深度按 SVO 绑定的嵌套层级定义:最外层核心词 depth=0,每多一层 : 深度 +1。 阶段二(微调,精度提升) :BGE-base / Qwen3-Embedding 主干 + 按 role 训练 4 个 LoRA 适配器(entity/concept/scope/sentence_mod),不强行统一编码空间。 训练对比对 (阶段二): 同指正例: K氏 / Karpathy 属性敏感正例: (资深:工程师):李 、 (高级:工程师):李 混淆负例:同修饰不同核心词( 红:苹果 vs 红:汽车 ) 属性翻转负例: (前:CEO) vs (现任:CEO) role 混淆负例: (AI:方面) scope vs AI entity 3.2 按 role 分流召回 在一个大向量库中用 role metadata 过滤子集召回: 查询的实体词 → entity + concept 子库 查询的场景词 → scope 子库 查询的情态词 → sentence_mod 子库 避免 (AI:方面) 作为 scope 被当成 AI 实体召回(它们表达不同的本体角色)。 3.3 属性 / 力双子空间(可选,阶段二上线) 手册 §1.2 的二元本体建议 显式投影 到两个子空间(同一主干 + 两个投影头): 属性子空间 :编码概念簇、scope、sentence_mod —— 在线扩散仅用此子空间 ,因为入口是概念簇 力子空间 :编码动作命题、逻辑命题 —— 离线诊断、类比挖掘、未来端到端重排 两个子空间独立归一化,避免属性向量被力向量拉偏。 四、扩散激活检索流程 4.1 完整流程(与大脑四步严格对应) 查询(自然语言或 SVO 算式) │ ① 入口激活 ─ SVO 解析 → 概念簇集合 │ ├─ 解析成功:每个概念簇在向量索引取 top-K,初始 a_i = 余弦相似度 │ └─ 解析失败:整句向量化作单入口,降级模式(保证服务可用) │ ② 沿边扩散 ─ 并行 BFS,最多 max_hops 跳 │ ├─ 每一跳按边权衰减 │ ├─ 节点门控软过滤(冲突 × gate_penalty) │ ├─ 扇出归一化(fan effect 防 hub 吞能) │ └─ 全局距离衰减 global_decay │ ③ 激活汇聚叠加 ─ 多源能量在公共邻居上求和 │ └─ 噪声互相抵消、信号互相增强 = 模糊检索 │ ④ 阈值触发 ─ E_i = a_i + α·softplus(B_i) ≥ threshold ├─ conclu:按 source_expr 聚合能量,top-M 返回 ├─ info:top-N 原子,带能量与命中路径 └─ output:沿逻辑链前后展开至 logic_chain_max_depth 4.2 能量传播公式 每一跳: a_j(t+1) = Σ_i [ a_i(t) · w_type(i→j) · gate(i,j) · fan_norm(i) ] · global_decay 其中: w_type(i→j) :边类型基础权重,逻辑边用连词类分化权重(§2.4) gate(i,j) = 1.0 若所有非 NULL 门控字段一致;冲突则 gate_penalty (默认 0.1) fan_norm(i) = 1/√fan_out(i) 当 fan_out(i) > fan_trigger ,否则 1.0 global_decay = 0.7 可行性自检 (这些常数必须满足能量能跨 2 跳存活): 初始能量 ≈ 0.9(cosine) 1 跳后 ≈ 0.9 × 0.8 × 1.0 × 0.7 ≈ 0.50 > threshold=0.05 ✓ 2 跳后 ≈ 0.50 × 0.7 × 1.0 × 0.7 ≈ 0.25 > threshold ✓ 门控冲突 1 跳 ≈ 0.9 × 0.8 × 0.1 × 0.7 ≈ 0.05 勉强达阈 ✓(正符合"冲突项压到阈值附近"的设计) 让步类 1 跳 ≈ 0.9 × 0.3 × 1.0 × 0.7 ≈ 0.19 低但存活 ✓ 最终排序能量 (§2.5): E_i = a_i + 0.1 · softplus(B_i) 。 4.3 扇出归一化(fan effect) ACT-R 的扇出效应:高出度节点("AI"、"机器学习"、"深度学习")的能量均摊到所有出边。 fan_norm(i) = 1/√fan_out(i) 仅当 fan_out(i) > fan_trigger=20 触发。低出度节点不惩罚,避免过早衰减冷门节点。 监控指标 :top-20 最高出度节点在 conclu 占总能量比例应 < 30%,否则提高归一化强度或降低 fan_trigger 。 4.4 门控冲突的精细化(阶段二) 默认所有冲突乘同一个 gate_penalty=0.1 。阶段二按冲突类型分化: 冲突类型 默认惩罚 理由 polarity 翻转(肯定 vs 否定) 0.05 最强信号,近乎反义 quantifier 不一致(所有 vs 某 vs 没有) 0.20 弱于极性但确实改变真值 modality 不一致(必须 vs 可能) 0.40 最弱,常表示近似信息 voice 不一致(active vs passive) 1.00 不扣分——同一事件的两种语态 connector_class 不一致 0.25 已由边权分化承担一部分 4.5 默认参数(写入 config.yaml ) activation: entry_top_k: 5 # 每入口概念召回候选数 max_hops: 2 # 最大扩散跳数 global_decay: 0.7 # 每跳全局距离衰减 threshold: 0.05 # 节点最低保留能量 gate_penalty: 0.10 # 默认冲突惩罚(阶段一) fan_trigger: 20 # 出度超此值启用 fan 归一化 fan_normalizer: sqrt # sqrt / linear / none base_activation_alpha: 0.10 # 基础激活混合系数 max_visited_nodes: 10000 # 防退化上限 edge_weight: slot: 0.80 utterance: 0.50 modifier: 0.60 logical: 因果: 0.80 致使: 0.75 条件: 0.70 推论: 0.70 认知: 0.60 言说: 0.60 比较: 0.60 目的: 0.50 让步: 0.30 output: conclu_top_m: 10 # 结论层表达式数 info_top_n: 30 # 证据层原子数 logic_chain_max_depth: 4 # 逻辑链展开深度 4.6 三层输出契约(向下兼容现有 BuildContextFragments ) def SpreadingActivationSearch(query: str) -> tuple[str, str, str]: """返回 (conclu, info, output)""" conclu(结论层) :top-M 源表达式(SVO canonical + 自然语言回译),按聚合能量排序。聚合能量 = 该源表达式内部被激活原子的能量之和,带长度惩罚,去重。 LLM 的主要生成依据 。 info(证据层) :top-N 激活原子,每条带 (atom, energy, entry_sources, hop_path) 。用于调试、人工排错、LLM 定位命中点。 output(推导层) :扫描激活到的逻辑命题,沿逻辑前件/后件边前后向各展开至 logic_chain_max_depth 跳—— 即使链上节点未达阈值也补齐 ,保证 LLM 看到完整因果/条件链。对应大脑扩散激活触发后整段情境快照被完整回放。 4.7 典型扩散场景 查询 扩散行为 结果 (模型>开源) > 则 > (?) 入口激活 模型 、 开源 → 槽位边到命题 模型>开源 → 逻辑前件边 connector_class=条件 的后件能量最高 所有:学生 > 通过 > 考试 候选 某:学生 > 通过 > 考试 因 quantifier 冲突能量 × 0.2 量词匹配命题排前 现有:框架 > 适用 候选 现有:框架 > 不:适用 因 polarity 冲突 × 0.05 反义命题降至阈值以下 (AI:方面) : (K > 偏向 > X) scope 入口经修饰边激活命题;其他域命题拿不到此路径能量 域外相关命题降权 A 促使 B 认识到 C 类比 结构同构命题在图中拓扑接近,扩散自然汇聚 L6 类比无需专门结构哈希 谁说 AGI 还要十年 AGI 、 十年之遥 入口 → 动作命题 → utterance 反向边 言说者节点浮现 五、数据模型 -- 概念簇(唯一向量索引) CREATE TABLE concept ( id BIGSERIAL PRIMARY KEY, canonical TEXT NOT NULL, -- (前:负责人):Karpathy core_word TEXT NOT NULL, -- Karpathy modifiers TEXT[] NOT NULL, -- [前, 负责人] role VARCHAR(16) NOT NULL, -- entity|concept|scope|sentence_mod vector VECTOR(768), base_activation FLOAT NOT NULL DEFAULT 0, -- B_i last_hits_ts TIMESTAMPTZ[] -- 最近 N 次命中时戳(环形缓冲,计算 B_i 用) ); CREATE INDEX idx_concept_role ON concept(role); -- 动作命题(图节点) CREATE TABLE action_proposition ( id BIGSERIAL PRIMARY KEY, subject_id BIGINT REFERENCES concept(id), verb TEXT NOT NULL, object_id BIGINT REFERENCES concept(id), -- NULL 时宾语是 PropRef object_ref BIGINT, -- PropRef 指向另一命题 polarity SMALLINT NOT NULL DEFAULT 1, -- 门控 modality VARCHAR(16), -- 门控 quantifier VARCHAR(16), -- 门控 voice VARCHAR(8) DEFAULT 'active', -- 门控:active/passive base_activation FLOAT NOT NULL DEFAULT 0, last_hits_ts TIMESTAMPTZ[], source_expr_id BIGINT NOT NULL ); -- 逻辑命题(图节点) CREATE TABLE logical_proposition ( id BIGSERIAL PRIMARY KEY, antecedent_id BIGINT NOT NULL REFERENCES action_proposition(id), connector_raw TEXT NOT NULL, -- 原句连接词(则/尽管/由于/从而迫使/...) connector_class VARCHAR(16) NOT NULL, -- 九类之一:条件/让步/因果/推论/目的/致使/认知/比较/言说 consequent_id BIGINT NOT NULL REFERENCES action_proposition(id), base_activation FLOAT NOT NULL DEFAULT 0, last_hits_ts TIMESTAMPTZ[], source_expr_id BIGINT NOT NULL ); CREATE INDEX idx_logical_class ON logical_proposition(connector_class); -- 引用关系(图边表;双向索引即邻接结构) CREATE TABLE prop_ref ( id BIGSERIAL PRIMARY KEY, source_type VARCHAR(16) NOT NULL, -- action|logical|concept source_id BIGINT NOT NULL, target_type VARCHAR(16) NOT NULL, -- action|logical|concept target_id BIGINT NOT NULL, ref_type VARCHAR(16) NOT NULL, -- slot|utterance|modifier|logical_ante|logical_cons weight_override FLOAT -- 阶段三学习权重,NULL 用类型默认 ); CREATE INDEX idx_ref_target ON prop_ref(target_type, target_id, ref_type); CREATE INDEX idx_ref_source ON prop_ref(source_type, source_id, ref_type); -- 源表达式(conclu 聚合回溯 = 海马体快照) CREATE TABLE source_expression ( id BIGSERIAL PRIMARY KEY, canonical TEXT NOT NULL, -- SVO canonical natural TEXT NOT NULL, -- 自然语言原句 doc_id BIGINT, line_no INT, base_activation FLOAT NOT NULL DEFAULT 0, last_hits_ts TIMESTAMPTZ[] ); 关键设计 : concept 向量独立存储在 Qdrant / Milvus, concept.id 与向量 metadata 互相映射。 内存图从 Postgres 的 prop_ref 双向索引加载为 numpy / scipy 稀疏邻接,百万节点 ≈ 500 MB。 base_activation 与 last_hits_ts 是 可巩固字段 :命中时更新(§6)。 weight_override 留给阶段三的端到端边权学习;阶段一、二为 NULL 不启用。 六、记忆巩固:离线重放与再巩固 这一节是本方案相对旧版的核心增量——把 大脑记忆"快照 → 回放 → 巩固" ( 大脑记忆的核心机制.md §三、§5.4)显式搬入工程层。 6.1 海马体 ↔ 皮层:两层记忆组织 海马体层 (episodic,短期高塑性): source_expression + 原子级 base_activation 。每次入库/命中都快速修改。 皮层层 (semantic,长期稳定):图结构(节点 + 边)+ 稳定化的边权 weight_override 。只在离线巩固时修改。 类比 CLS(Complementary Learning Systems, 大脑记忆的核心机制.md §5.4): 短期系统承担单次事件的快速记录,长期系统从反复回放中提取统计规律。 6.2 在线命中即重巩固(reconsolidation) 每次查询命中后 ,对命中的源表达式与其内部原子执行: def on_hit(node, now): node.last_hits_ts.append(now) if len(node.last_hits_ts) > MAX_HITS_BUFFER: node.last_hits_ts.pop(0) node.base_activation = log_sum_power_decay(node.last_hits_ts, d=0.5) 效应: 频繁被查的节点 B 上升 → 下次更易被召回(priming) 久未命中的节点 B 自然衰减 → 不删除,只"想不起来" 每次命中都是一次学习,符合 大脑记忆的核心机制.md §3.2 的 reconsolidation 6.3 离线巩固任务(类慢波睡眠) 定时任务(每日/每周)执行: 扫描高频共现边 :过去 N 天查询中,哪两个节点经常同时被高能量激活 → 记录为候选赫布强化对。 赫布更新 weight_override : Δw_ij = η · a_i · a_j · μ η = 0.01(学习率) μ ∈ [0.5, 2.0] 按情绪/显著性(见 §6.4) 突触稳态归一化 :每个节点所有出边权重之和若超过 homeostasis_cap (默认 N × base_weight),整体等比缩放——防止某些节点所有出边无限增强。 提取规律到皮层层 :如果 A → B → C 的路径在多次查询中都被高能量激活,可增加 A → C 的快捷边(学习到的规律性连接,阶段三才启用)。 这对应脑的慢波睡眠回放 ( 大脑记忆的核心机制.md §3.3, §6.2): Experience replay(RL)、多 epoch 训练都是对应的工程机制。 6.4 情绪 / 显著性门控(可选) 不是所有命中都值得长期巩固。可引入 salience 信号作为神经调质 μ: 信号 μ 乘数 说明 用户显式反馈(点赞 / 采用) 2.0 最强显著性 LLM 生成时引用 1.5 下游任务确认有用 单次查询中能量异常高(> μ+2σ) 1.2 明确命中 普通命中 1.0 基线 疑似噪声召回(能量极低) 0.5 弱化,防止扩散噪声被固化 μ 对应多巴胺(预测奖赏)、去甲肾上腺素(惊讶)、乙酰胆碱(专注)的联合调节( 大脑记忆的核心机制.md §2.3)。 七、核心挑战与对策 7.1 SVO 解析器稳定性(最大风险点) 扩散架构对解析器依赖 比旧架构更重 ——解析结果直接决定入口概念集合。 行动指引 : 解析一致率基准 :500 句自然语言 × 10 个人工改写(同语义),统计结构指纹一致率。 一致率门槛 :< 85% 不得投入生产。 双轨降级 :解析成功 → 多入口;解析失败 → 整句向量化单入口(§4.1)。 重点稳定"作用域 vs 条件"识别 :中文"在 X 的情况下"歧义最高,必须用上下文特征分类,不能靠正则。 解析器版本化 :每次解析器升级重建全量 concept 向量与 prop_ref ;灰度期保留两份索引。 7.2 编码器敏感度要求 向量层需区分: 角色翻转: A > 杀 > B vs B > 杀 > A (由命题节点区分,向量只需区分 A 、 B ) 同义动作: 喜欢 vs 爱 (需向量区分;主要由人工对比对训练) 作用域翻转: (战时) vs (和平) (scope 子索引) 注意 :极性翻转、连词翻转 主要由门控 + 边权分化承担 ,向量辅助。不要试图让向量承担全部语义区分——那是旧架构的技术债。 7.3 参数校准(扩散架构特有) gate_penalty × global_decay 需过 threshold :0.1 × 0.7 × 1.0 = 0.07 勉强过 0.05。必须用标注集校准。 连词权重相对值 :条件 0.7 vs 让步 0.3 的比值直接决定反预期召回率。 扇出归一化触发点 : fan_trigger=20 为经验初值,需监控 Hub 能量占比。 基础激活混合系数 α :α 过大 → 热门节点永远浮现(priming 失控);α 过小 → 无 recency/frequency 效应。建议 [0.05, 0.2]。 方法 :阶段一 100 条 (query, expected) 标注 + 脚本化 grid search;阶段二 500+ 对监督学习。 7.4 Hub 能量流失 中心节点("AI"、"模型"、"深度学习")因入度/出度极高,容易吞掉全图能量或把能量分散到无关节点。 对策分层 : 扇出归一化 (§4.3):已在公式内置 阶段二边权学习 :度越高的节点,出边基础权重按 1/log(fan_out) 再衰减 阶段三 edge attention :用 GNN 学习上下文相关的边权 八、工程落地路径 8.1 基础设施选型 组件 选型 理由 概念向量索引 Qdrant / Milvus / MindStore 支持按 metadata(role)过滤 关系表 & 图边表 Postgres 外键一致, prop_ref 双向索引即邻接结构 内存图 numpy / scipy sparse 百万节点 ≈ 500 MB 编码器 BGE-base / Qwen3-Embedding + LoRA 中文效果好、微调成本低;复用本仓库已有 checkpoint 扩散算法 纯 Python 模块 无需新服务;热点可异步 C 扩展 离线巩固 Airflow / 定时脚本 每日/每周跑 §6.3 废弃基础设施 (相对旧四层索引): Elasticsearch 倒排 → 槽位边扩散替代 Redis 结构哈希 → 扩散自然实现 L6 类比 pgvector 的前后件向量列 → 逻辑命题作为图节点,不再独立向量化 8.2 三阶段演进 阶段一 MVP(2–4 周) 跑通 SVO 解析 → 多入口 → 类型化边扩散 → 三层输出 概念编码用加性组合(零训练) 参数从 §4.5 初值起手调;100 条标注做 grid search 校准 threshold / gate_penalty 基础激活 B 字段保留但不在排序生效(α = 0) 目标 :验证扩散能量排序能替代旧架构的学习排序 阶段二 精度提升(1–2 月) 编码器微调:概念按 role 训练 4 个 LoRA 扇出归一化从 sqrt 改为按边类型 + 节点度数的联合学习权重 连词权重从手调改为小规模监督学习(500+ 对) 门控系数按冲突类型细化(§4.4) 基础激活上线:α = 0.1,MAX_HITS_BUFFER = 50 开启 reconsolidation(§6.2) 目标 :L3/L4 召回率显著提升,Hub 能量占比 < 30% 阶段三 持续优化 离线巩固任务上线(§6.3),启用 weight_override 与学习到的快捷边 全图 edge attention(类 GNN),端到端学习边权 属性 / 力双子空间投影上线(在线仍只用属性子空间) 显著性门控(§6.4):用户反馈回流强化信号 多模态入口:图片 / 音频作为入口激活源 激活缓存:高频查询启动效应(priming) 8.3 评估指标 SVO 固有指标 : 角色准确率 / 极性准确率 / 量词一致率 / 作用域覆盖率 / 嵌套深度保持率 / 连词一致率 / 逻辑链完整率。 扩散架构新增指标 : 指标 定义 目标 扩散覆盖率 目标命题在 2 跳内被激活到的比例 > 90% 能量信噪比 top-K 结果能量均值 / 第 K+1 位能量 > 2.0 Hub 能量占比 top-20 最高出度节点能量 / 总能量 < 30% 门控过滤准确率 冲突门控命题被压至阈值以下的比例 > 85% 基础激活效应 priming 命中在同一会话内耗时下降比例 阶段二 > 20% 巩固稳定性 离线巩固前后 top-10 变化率 < 15%(避免震荡) 九、操作快查表 检索需求 扩散实现 含特定实体的表达式 实体词为入口概念激活 含特定话题 / 场景 scope 概念为入口 + 修饰边 1 跳 含句子级态度词("显然") sentence_mod 概念为入口 角色精确匹配动作命题 入口 + 槽位边 1 跳 结构类比动作命题 多入口扩散自然实现 语义模糊相似动作命题 入口 top-K + 扩散 2 跳 "如果 X 则…"推导 X 入口 → 激活逻辑命题 → 后件边, connector_class=条件 权重最高 "…导致 X"推导 X 入口反向沿前件边, connector_class=因果 权重最高 特定连词推导链 连词类别权重直接分化,无需额外过滤 避免召回反义命题 polarity 门控 × 0.05 衰减 避免召回不同连词 条件 0.7 vs 让步 0.3 的权重差异自动压制 追溯"谁说了这句话" 沿 utterance 反向边扩散 展开"他说了什么" 沿 utterance 正向边扩散 追溯推导前提 沿逻辑前件边反向 / output 层逻辑链补齐 展开推导后果 沿逻辑后件边正向扩散 热门词不要永远浮现 扇出归一化 + α 限制基础激活影响 频繁被查的信息优先 基础激活 B_i 上升 + α·softplus(B) 参与排序 区分同事件的主动/被动语态 voice 门控不扣分,聚合在同一命题 十、参考 SVO 算子规范与原子定义: Agent/svo/SVO语义矢量算子手册.md 生物学原型与设计灵感: Agent/svo/大脑记忆的核心机制.md SVO 表达层输入规范: Agent/svo/SVO表达指令.md 现有检索接口(待对接): Auto/gen_qdrant_dataset.py 中的 BuildContextFragments SVO语义矢量算子手册 SVO 语义矢量算子手册 一、核心哲学 1.0 基本原则:自然语言投影(最高约束) SVO 是自然语言的格式化投影。 它不是独立于自然语言的形式化系统——而是给自然语言添加最少符号,把隐含结构显式化。语序、词项、修饰关系尽量保留原句;只在歧义、辖域、命题关系等必须显式化的地方引入符号。 合法性检验的唯一标准 :算式按结合律回读为自然语言,应与原句语义接近。读不回去的算式就是错的,即使它通过了所有形式规则。 本手册 §二 至 §七 的所有具体规则都是"辅助工具",不是"凌驾检验"。当具体规则与原句表达冲突时,除硬性约束之外,一律以原句为准。 1.1 硬性约束 违反任一条即为错解。其余全部"规则"都是 可读性建议 。 命题间关系不可压成定语 ——条件、让步、因果、推论、目的、致使若连接两个命题,必须用 > + 连接词,不可作属性。 专有名词、行业术语、固定搭配、高频合成词不拆 —— 深度强化学习 、 想象力编码器 、 不能 、 没有 、 无法 、 能够 等是原子词项。 歧义必须显式封装 ——当 SVO 写法引入原句没有的歧义时,用 ( ) 明示辖域。逻辑流两端是完整命题时必须封装。 致使结构的嵌入命题必须封装 ——致使类连接词(使/让/令/迫使/促使/导致/驱使/叫)后若跟带自身主语的命题,该命题必须整体封装。 : 与"的"不共存 —— : 承担"的"("'s"、"of"、"の")的修饰语义,两者不并存。 跨句连接词不作句内 : ——然而/因此/从而/此外/总之 等承接上下文的连接词不能用 : 绑本句。 自然语言标点不是 SVO 分隔符 ——中文逗号、分号、句号等不得出现在算式中。 1.2 二元语义物理学(建模工具) 在"自然语言投影"原则之下,SVO 提供一个 二元本体建模工具 :把语言结构归入两类基本实体——属性、力。这是思考工具,不是检验工具。 1.2.1 属性 (Attribute) 世界中的每一个事物都是属性的叠加。"红苹果"不是"红"和"苹果"的外部关联,而是"红"这个属性坍缩到"苹果"上形成的新复合体。 话题、身份、范围、背景、句子级副词 本质上都是属性——它们限定一个核心(谓词、命题或实体)使其成为更特定的东西。 "在AI方面"限定"偏向"这个动作 → 属性 "作为前负责人"限定"Karpathy"这个实体 → 属性 "显然"限定"他错了"这个命题 → 属性 属性通过 引力算子 : 坍缩到核心。 1.2.2 力 (Force) 世界中的每一次 变化 都是能量从一点流向另一点。物理动作是力(施事→受事),逻辑推导也是力(前件→后件)。致使、条件、让步、因果、推论——它们在本体上没有差别,都是 一个命题释放能量驱动另一个命题成立 。 "论文促使 Tishby 认识到 X" → 物理-心理动作力 "如果 P 则 Q" → 条件力 "尽管 P 但 Q" → 反预期力 "A 导致 B" → 因果力 力通过 驱动算子 > 释放。力的方向由中段的 连接词项 (动词或逻辑连词)明示。 1.2.3 并联 (Juxtaposition) 当多个项在原句里并列出现(共存或二者择一)时,通过 & / | 连接。判定:把 & 替换回"和/与/并"、 | 替换回"或",读起来与原句一致即可。形式异质但原句本就并列的也合法。 二、三算子定义 : 绑定 (Bind) —— 属性本体 逻辑定义:左侧为右侧的限定。右侧可以是词项或封装域。 涵盖语法成分:定语、状语、程度词、否定词、模态词、被动标记、量化词、 话题、身份、范围、背景、句子级副词 。 > 驱动 (Vector) —— 力本体 逻辑定义:能量从左向右传递。中段为连接词项(动词/介词/逻辑连词)。 涵盖语法成分:主谓宾、动宾、致使、 条件、让步、因果、推论 、认知指向、语气(疑问、祈使、感叹)、比较。 & / | 合取 / 析取 —— 并联本体 逻辑定义:并联共存 / 二者择一。 涵盖语法成分:并列结构、选择关系。 辅助符号 : ( ) 用于逻辑封装,将一组算式打包成一个原子化的 域 (Domain) 。域在外层算子眼中等价于一个词项。 算式合法符号只有 : > & | ( ) 。中文逗号、分号、句号等自然语言标点不是 SVO 算子。 三、运算规则 3.1 绑定的方向性 公理 I : : 一律左修饰右。 A : B 意味着 A 是 B 的限定,结果具有 B 的本体类型。 红 : 苹果 是一个苹果(不是一种红)。 不 : 适用 是一种适用的否定态(不是一种不)。 显然 : (他 > 错了) 是一个命题("他错了"的显然态)。 3.2 绑定的递归性与层级性 公理 II : : 的左右操作数都可以是封装域。 (A : B) : C 左侧复合属性 → 限定 C A : (B > C) 简单属性 → 限定一整个命题 (A : B) : (C > D) 复合属性 → 限定一整个命题 链式绑定 从左到右逐级坍缩: A : B : C = (A : B) : C 3.3 词项粒度与固定搭配 (a) 固定搭配 :当两个词构成不可拆分的语义单元(如"十年之遥"、"与此同时"、"一如既往"),视为原子词项。 (b) 高频合成词 :现代汉语中词典查得到的合成词(副词+能愿、否定+能愿、方位+词 等)按原子保留,不用 : 拆: 类别 原子保留 否定+能愿 不能 / 不会 / 不可 / 不应 / 不得 / 不必 存在否定 没有 / 无法 能愿 可以 / 能够 判定: 词典查得到 → 原子;临时组合 → 可拆 。 不:适用 、 不:公开 、 不:明确 这些临时否定组合仍可拆。 边界说明 : "不"+动词/形容词的临时组合仍用 : : 不:适用 、 不:公开 (不是词典词,而是构词法上临时否定)。 模态+动词复合中段仍可拆为 > 中段(§3.5): 他 > 不得不 > 离开 ——这里"不得不"整体作中段,不被 : 拆分。 (c) 任务导向的粒度准则 :除固定搭配外, 专有名词、行业术语、偏正复合词 也应尽量保留为原子词项。判定问法: "在当前句子的推导链中,这个子词项是否会被单独施加 : 或 > ?" 否 → 并入整体,作为单原子。 是 → 才拆分。 示例 : 原子写法 ✅ 过度拆解 ❌ 深度强化学习 深度 : 强化 : 学习 学习效率 学习 : 效率 决策鲁棒性 决策 : 鲁棒性 想象树 想象 : 树 协作式中间态 协作式 : 中间态 不能 / 没有 / 无法 不:能 / 没:有 / 无:法 复杂不完美环境 ((复杂 & 不完美) : 环境) (除非子词需独立操作) 保留可拆分的反例 : (前 : 负责人) : Karpathy 中"前"被保留——因为上下文若对比"前任 vs 现任","前"需独立承载 : 。粒度选择取决于 当前句子的推导需求 。 领域固定 V+O 短语作合成原子 :当「V+O」在所属领域反复出现且语义稳定到读者一眼识别为固定概念,按合成原子处理比按 §3.7-反例 / §1.1 约束 10 强行提升为 > 命题更忠实——即便 V 在通用语境是谓词动词。判定(高门槛,宁严勿松): 该短语在所属领域文献内 反复出现且语义稳定 (如 RL 语境的"超越奖励"≈ beyond-reward、病理学的"携带病毒"、机器学习的"数据驱动"); 投影时不会被单独施加 : 或 > (即 V 与 O 不会被独立修饰); 拆为 V > O 反而引入原句没有的递进感。 三条同时满足才生效,否则回退提升处理。 ✅ 抽取 > 超越奖励:额外:信息 (RL 领域固定属性短语) ✅ 采集 > 携带病毒:样本 (病理学固定属性短语) ❌ S > 具备:能力 ("具备能力"是临时动宾,不是术语,应作 S > 具备 > 能力) 心法 :SVO 用来做逻辑推导,不是底层分词。原子粒度应大到足以让结构化的算式承载语义重心,而不是把所有词都剥成单字。 3.4 驱动的双重承载 > 统一承载两类能量流向,二者在本体上同构: (a) 动作流 :施事 → 动作 → 受事 论文 > 促使 > (Tishby > 认识到 > (理论 > 涵盖 > 过程)) (b) 逻辑流 :前件命题 → 逻辑连词 → 后件命题 (P1) > 则 > (P2) (P1) > 尽管 > (P2) (P1) > 导致 > (P2) 识别原则 : > 两端是 词项 还是 封装域 决定动作流/逻辑流——两端都是完整命题时即为逻辑流;否则即为动作流。 3.5 > 中段(语言无关) SVO 代数与语言无关 。算子、优先级、结合律、封装规则全部是形式化定义,不依赖具体语言。 原则 : 原句用什么连接词,SVO 就用什么 。中文写中文、英文写英文、日文写日文,照原词填入 > 中段即可。 合法中段形态 情形 示例 单动词 他 > 吃 > 苹果 模态+动词 他 > 不得不 > 离开 介词 模型 > 基于 > 想象 模态+介词 算法 > 能在 > 规则完美环境中 > 利用 > 模型 复合连接 测试 > 设定 > 限制 > 从而迫使 > (...) 介词、模态+介词、复合连接短语("从而迫使"、"以至于"、"so as to"、"in order that")均可整体作中段,不必拆成两个 > 。 中文常见词举例 大类 常见词 示例 条件 则、否则、除非、只有、当 (P) > 则 > (Q) 让步 尽管、虽然、即使、纵然 (P) > 尽管 > (Q) 因果(正向) 所以、因此、导致、使得、造成、引起 (A) > 所以 > (B) 推论 因此、所以、从而、故而、进而 (P) > 因此 > (Q) 目的 以便、为了、旨在、力求 (P) > 以便 > (Q) 致使 促使、迫使、让、令、使、催生 A > 促使 > (B > V > (...)) 认知指向 表示、认为、知道、察觉、发现、意识到、主张 K > 表示 > (...) 比较 比、胜过、不如、堪比、逊于 A > 胜过 > B 言说引导 说、问、答、告知、声明 K > 告知 > T > (...) 方向要求 > 的方向必须与 能量/因果流 一致(原因 → 结果、条件 → 结论、先 → 后)。 当原句连接词字面方向与能量流相反时, 替换为对应的正向连接词 ,不受字面语序束缚: 反向(字面) 正向(SVO 使用) 示例 由于 / 因为 所以 / 因此 "由于 A,B" → (A) > 所以 > (B) since / because so / therefore "B because A" → (A) > so > (B) 鉴于 故 "鉴于 A,B" → (A) > 故 > (B) 正向连接词(所以 / 因此 / 从而 / 于是 / 故 / therefore)保持原样;条件/让步/致使类(则/尽管/导致/迫使)本身就顺向,无需替换。 不要把一种语言的连接词映射成另一种语言的等价物再反转方向 ——写哪个连接词,就按对应的能量流方向。 状语-动词绑定 (scope:V) 副词修饰动词时,通过 : 左修饰绑到动词头上,整体作 > 中段: S > (scope:V) > O scope 限定 V 的 施行方式 / 范围 / 频次 / 时体 ,不是 V 的属性,也不是与 V 并列的能量阶段。这与汉语"副词紧贴动词"的自然语序同构。 适用类别 : 类别 示例词 示例 分布量化 均、都、全、各、皆、分别 (A:表现) > (均:优于) > (B:表现) 频次 再次、反复、多次、几次、一直 S > (反复:验证) > 假设 时体 已经、正在、曾经、即将、终于 团队 > (已经:发布) > 报告 范围 一起、同时、单独、共同 他们 > (共同:探讨) > 方法 程度 显著、明显、略微、大幅、彻底 X > (显著:提升) > 效率 立场 坚决、果断、勉强、断然 他 > (果断:拒绝) > 提议 判定规则 : (X:Y) 中 Y 必须是动词头,X 是状语副词 。反过来则违规: 形式 判定 原因 (均:优于) ✅ 左副词 + 右动词头,比较结构 S > V > O 完整 (优于:B) ❌ 比较项 NP 被吞成 V 属性(违反 §1.1 / 约束 7) (具备:能力) ❌ 动词在 : 左侧作修饰(违反 §1.1 / 约束 10),应提升为 S > 具备 > 能力 (显著:提升) ✅ 或原子 程度副词 + 动词;若搭配高频固化(§3.3)可直接作原子 显著提升 多状语堆叠 :逐层 : (左结合自然展开): S > (再:(一次:提交)) > 申请 (副词层叠:再 → 一次 → 提交) S > ((仔细 & 反复):检查) > 数据 (仅当原句"仔细并反复"本就并列时用 &) 与跨句连接词 / 句子级副词的区分 : 句子级副词(显然 / 据说 / 不幸的是)作用于 整个命题 ,绑命题封装域: 显然 : (他 > 错了) (§4.12)。 状语副词作用于 单个动词 ,绑动词头: (显然:错了) 不合法——"显然"是认知立场,不是动作方式修饰。 跨句连接词(然而 / 因此)作 > 首节点(§3.10)。 3.6 封装域 ( ) 的作用 封装域将一组算式打包成一个原子单位。对外层算子而言,封装域等价于一个词项。 必须封装的情形 : > 的逻辑流两端出现完整命题时,该命题必须封装( 除同主语扁平链 ,见 §3.9.1)。 : 的右操作数是完整命题时,该命题必须封装。 致使类连接词 (使/让/令/迫使/促使/导致/驱使/叫)后跟带自身主语的命题时,该命题整体封装: ✅ 论文 > 促使 > (Tishby > 认识到 > (...)) ✅ 测试 > 迫使 > (智能体 > (先:想象) > 结果) 连续 : 语义分组与左结合不符 时,必须按语义分组封装: ❌ 其:发表的:两篇:相关论文 (左结合解析不符语义) ✅ (其:发表):(两篇:相关论文) 三层以上的连续 : 几乎总需封装。 任何时候需要覆盖默认优先级时。 禁止封装的情形 : 单一词项( (苹果) 与 苹果 等价,但多余)。 破坏固定搭配(不能把"十年之遥"写成 (十年 : 之遥) )。 默认优先级与关联律已能正确结合的子式 ——见 §3.7「冗余括号识别」。括号只在改变默认结合、显式分组消歧、或满足上面五条「必须封装」时使用。 3.7 运算优先级与结合性 从高到低: ( ) → : → > → & | 即括号最紧,绑定次之,驱动更松,合取/析取最松。 A : B > C & D > E 解析为: ((A : B) > C) & (D > E) : 左结合 : A : B : C = (A : B) : C 。 > 左结合 : A > B > C > D = ((A > B) > C) > D 。 后者与主谓宾的自然语序一致:A 先与 B 发生作用,其结果再与 C 发生作用。 冗余括号识别 总原则 :括号是结构标记不是装饰。凡按已定义的优先级与关联律即可正确结合的子式,不加 ( ) 。 五条冗余条款 : 单原子裹括号 —— (苹果) → 苹果 , (复杂不完美环境中) : (...) → 复杂不完美环境中 : (...) 。 > 链中的 : 子式 —— : 紧于 > ,自然结合: ❌ (DeepMind:最新博客) > 介绍 > ... ✅ DeepMind:最新博客 > 介绍 > ... &| 中的 > 或 : 子式 —— &| 最低,自然结合: ❌ (智能体:学习效率) & (智能体:决策鲁棒性) ✅ 智能体:学习效率 & 智能体:决策鲁棒性 ❌ (A > 提出 > X) & (B > 验证 > Y) ✅ A > 提出 > X & B > 验证 > Y 整条算式最外层括号 ——不被任何外层算子作用: ❌ ((不可预知:问题) > 频发) ✅ 不可预知:问题 > 频发 连续 : 链中关联律无差异 ——所有修饰均独立绑同一中心、内部不形成分簇时,左/右结合都得回原句,内层括号可去: ❌ 几个:(显著:特征) ✅ 几个:显著:特征 (= (几个:显著):特征,回读仍为"几个显著的特征") ❌ 这一:(核心概念):想象力 ✅ 这一:核心概念:想象力 判定:所有修饰是否同向限定同一头词、且无子簇?是则可去;否则保留括号显式分组(如 (其:发表):(两篇:相关论文) 必须保留——内部有真实分簇)。 保留括号的反例 ——必需的情形不在「冗余」之列,见 §3.6「必须封装的情形」与下面的快速对照: 情形 括号必需 原因 ... > (复杂 & 规则:不明确) ✅ 必需 & 在 > 操作数内,需收缩辖域 显然 : (他 > 错了) ✅ 必需 > 命题作 : 右操作数 论文 > 促使 > (T > 认识到 > (...)) ✅ 必需 致使嵌入命题 (其:发表):(两篇:相关论文) ✅ 必需 连续 : 内有真实分簇 判定口诀 :能去就去,去不掉再留。拿不准时把括号去掉重读一遍,能回读原句就是冗余。 & 优先级陷阱(与冗余括号成对出现) &| 优先级最低这把双刃剑——它 让 (A:B) & (C:D) 自然解析为两个 : 子式的合取(冗余条款 3 的依据),同时也 让 A > B > C & D > E 自然把整条 > 链切成 (A > B > C) & (D > E) 。冗余括号识别的反面是:当作者 实际想表达 「 A > B > C > X ,X 是 & 子结构」时,必须把 & 整体封装: ❌ S > V > O & 例如 > (...) (误读为 (S > V > O) & (例如 > (...)),主干被切成两段) ✅ S > V > O > 例如 > (...) ("例如"作 `>` 中段承接主干,`&` 留在 `(...)` 内) 自检 :每写完一行,按优先级把 & 切位画一遍——如果 & 把本应成一体的 > 链切开,就是误读,加 ( ) 或改结构。 3.8 歧义消解 原句本身不歧义时可省略封装;原句有歧义或 SVO 写法会引入歧义时必须封装。 约定一 :当同一个修饰语可能限定动词或整个命题时, 封装明示辖域 。 ❌ 显然 : 他 > 错了 ✅ 显然 : (他 > 错了) (限定整个命题) ✅ 他 > (显然 : 错了) (限定"错了"这个谓词) 约定二 :当话题可能限定一个动作或一整段话语时,封装要明确。 (AI:方面) : (Karpathy > 偏向 > X) (整段话都在 AI 方面) Karpathy > ((AI:方面) : 偏向) > X (只有"偏向"这个动作在 AI 方面) 约定三 :当 > 中段是逻辑连词时,两端必须是封装的完整命题。裸词项不能出现在逻辑流 > 的两端: ❌ P > 则 > Q ✅ (P) > 则 > (Q) ✅ (P) > if > (Q) 3.9 可读性建议 以下是 可读性与下游效率建议 ,最终由作者按原句判断。§1.0 的"能回读原句"是唯一凌驾检验。 3.9.1 同主语扁平 > 链 当 句内 命题间连接词(从而/因此/所以/故而/以便/于是 等)前后主语 承前省略 (即同一主语)时,优先 扁平链 ,不重复主语也不封装两端: ✅ 它们 > (能够:学习) > 阐释 > (其:内部模拟过程) > 从而 > 使用 > ((即使:不完美):环境动态模型) ✅ 他 > 听完 > 报告 > 因此 > 决定 > 辞职 ❌ (它们 > 学习 > X) > 从而 > (它们 > 使用 > Y) 回退到封装 的条件: 情形 示例 主语切换 (经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > (被迫:裁员)) 两端含 & / ` ` 并列 两端自身是多段 > 链 (P1 > P2 > P3) > 因此 > (Q1 > Q2 > Q3) 致使类连接词(主语切换) A > 迫使 > (B > V > C) 承前省略是中文正常语法现象,不是歧义;强行回填主语相当于改写原句。扁平形式下 > 已保证顺序流动,连接词作中段节点时两侧命题已被 > 自然隔开,无需括号。 3.9.2 词汇组块坍缩 (Lexical Chunking) 专有名词、行业术语、偏正复合词、高频合成词作为原子词项,能合则合。判定见 §3.3。 反例 vs 正例 : 深度强化学习 ✅ ,而非 深度 : 强化 : 学习 ❌ 学习效率 & 决策鲁棒性 ✅ ,而非 (学习 : 效率) & (决策 : 鲁棒性) ❌ 基于想象的计划方法 ✅ ,而非 (基于 : 想象) : 计划 : 方法 ❌ 不能 ✅ ,而非 不 : 能 ❌ 3.9.3 扁平化多重属性 (Flattening Modifiers) 当同一核心被多个修饰同时限定时,先用 & 把所有修饰合取,再做 一次 : 绑定。避免生成 ((A:B):C):D 四层以上的嵌套。 方位词归并 :方位词(中、里、上、下、前、后、内、外、间)直接并入名词,不单独绑定—— 环境中 、 桌上 ,不写 环境 : 中 。 反例 : ((((复杂 & 不完美) : 环境) : 中) : ((学习 : 效率) & (决策 : 鲁棒性))) 正例(中等粒度) : ((复杂 & 不完美) : 环境中) : (学习效率 & 决策鲁棒性) 正例(更粗粒度) : 复杂不完美环境中 : (学习效率 & 决策鲁棒性) 3.9.4 宏辖域优先 (Macro-Scoping) 范围、背景、话题修饰默认上提到整命题层绑定,而非深埋在受事子树里。除非原意明确只限定某个动词。 反例 : DeepMind > 提升 > (智能体 : ((((复杂 & 不完美) : 环境) : 中) : ((学习 : 效率) & (决策 : 鲁棒性)))) 正例 : (复杂不完美环境) : (DeepMind > 提升 > 智能体:(学习效率 & 决策鲁棒性)) 但 :当场景本身是 操作流的一个阶段 ("先到 X 再做 Y")时,保留在线性 > 链比上提更忠实语义: ✅ ((如:AlphaGo):已有算法) > 能在 > 规则完美环境中 > 利用 > 内部模型 > 进行 > (推理 & 计划) 三种场景处理方式: 情形 处理 X 是静态场景框定,与 Y 无时序关系 背景上提 X : (...Y...) X 是操作流的一个阶段 保留线性 > 能在 > X > V > Y X 与模态/其他状语是同层修饰 & 并列作状语丛: (能 & 根据:环境差异):调整 选择依据是 原句的语义重心 :场景强调 → 上提;操作时序 → 线性;同层修饰 → 并列。 注意 :不要用 & 把本可线性展开的时序/因果关系压平为状语丛——这会丢失原句的操作顺序,也更罗嗦。 & 仅用于原句中本就并列的项。 3.9.5 虚词与代词 原则 :原句里的 虚词(该、还、并、其、就、也)默认保留 ——按自然语言投影原则,原句词项不擅自删除。 只在以下情形可省略: 作者 确信 删除不影响语义。 需要避免明显冗余(如原句重复主语)。 模态词(必须、可以、应该、可能、能、能够)和否定词(不、未、非)始终保留 ——它们承载真值判断。 "的" 由 : 承担,不并存 : : 的语义定义是"左修饰右",与中文"的"、英文"'s"/"of"、日文"の" 承担同一修饰关系。已用 : 处不再保留"的"。 ❌ 基于想象的:计划方法 ❌ DeepMind的:最新博客 ✅ (基于:想象):计划方法 ✅ DeepMind:最新博客 判定口诀: "的"作为结构助词连接定语和中心语时,其功能由 : 承担;两者不并存。 "的"作为名词性成分(如"我的"中指代所有物)时,通常并入前词或作为原子保留。 3.9.6 语义重排 当字面投影导致结构扭曲、辖域不清或语义重心被掩盖时,允许重排: 情形 重排方式 示例 承接词与算子语义重复 省略(据此/由此/从此-已被连接词/ & 承担) "…并据此行动" → … & 行动 字面语序扭曲修饰关系 重排为 A:B 形式使限定关系显式 "会在初期" → (初期:会) 并列动作被状语粘连 用 & 切分,状语上提或就近绑定 "想象X并做Y" → (想象 > X) & (做 > Y) 不可重排 :原句语序本就表达语义("先…后…")、修饰项有多种解读时、专有术语/固定搭配。 字面忠实让步于语义清晰 :§二"合法性"要求"能读回原句语义",字面忠实与语义清晰冲突时,以回读检验通过为准。 3.9.7 多命题逗号分句 自然语言标点不是 SVO 分隔符。含多命题的长句按语义关系处理: 语义关系 SVO 处理 并列/延续("A,并 B"、"A,它们 B") & 合取,或拆成独立多行 方式-动作流("通过 A,并 B"——A 是手段,B 是基于该手段的动作) 扁平 > 链(同主语承前省略),不用 & 因果/推论("A,因此 B") (A) > 因此 > (B) 条件("A,则 B") (A) > 则 > (B) 让步("A,但 B") (A) > 但 > (B) 「并」的双重语义 ——「并」字面是并列连词,但 SVO 选 & 还是 > 由两侧的语义关系决定,不由词本身决定: 类别 判定测试 SVO 真并列(动作平行共存,主语相同,删"并"句意不变) 把"并"换成"和" / "及" 重读——通顺 & 方式-动作流(前段是方式/手段,后段是基于该方式的动作;"并"承"接着/进而"语义) 把"并"换成"和"——读起来怪 / 丢失递进感 > 例 : 原句:例如通过调整想象轨迹的数量,并从想象中抽取超越奖励的额外信息。 "并"换"和"测试:"通过调整数量 和 从想象中抽取信息" — 怪 更准确读法:"通过调整数量 → 从想象中抽取信息" — 方式接动作 ✅ ... > 例如 > (通过 > 调整 > 想象:轨迹:数量 > 从 > 想象中 > 抽取 > 超越奖励:额外:信息) ❌ ... > 例如 > (通过 > 调整 > X & 从 > 想象中 > 抽取 > Y) 原句:他买了苹果并买了橘子。 "并"换"和"测试:"买了苹果 和 买了橘子" — 通顺 ✅ 他 > (买 > 苹果 & 买 > 橘子) 当一个自然语言句子包含两个或多个 可独立成立的命题 ,且用逗号 + 代词回指("它们"、"这"、"该 X")串联时, 允许拆解为多行 SVO 。拆行时将代词显式化("它们" → "该两篇论文"、"它" → 具名指称)——前提是上下文已提供实义指称;若是单句独立、无前文可回指,保留原句代词(详见 §3.9.5「虚词与代词」与 §3.9.1「同主语扁平 > 链」)。 3.10 跨句语篇连接词 跨句连接词( 然而 / 因此 / 从而 / 此外 / 总之 / 不过 / 但是 / 例如 …)表达 本句与前一句 的逻辑关系。它们 不是句内副词 ,不可用 : 绑本句——回读"然而地真实世界…"不通。 与句内立场副词的区分: 词类 代表词 作用 处理 句内立场副词 显然 / 显而易见 / 据说 表达说话者对 本句 命题的认知或模态立场 可 : 绑本句: 显然 : (P) 跨句语篇连接词 然而 / 因此 / 从而 / 此外 / 总之 表达 本句与前一句 的逻辑关系 不可 : 绑;见下三方案 回读测试 :副词可读成"X地Y"(显然地错了 ✓),连接词不行(然而地真实世界 ✗)。 三种处理方案 方案 1:跨句合并 (若流水线允许) 相邻两句构成明显逻辑关系时,合并为一个 SVO,连接词作 > 中段: (前句命题) > 然而 > (后句命题) (前句命题) > 因此 > (后句命题) 方案 2:分行保留,连接词作句首 > 节点 (若必须一行一句) 然而 > ((真实世界 > (复杂 & (规则:不明确))) & ((不可预知:问题) > 频发)) > 使得 > ((此类环境中:想象) > 变得 > (耗时 & 耗力)) 读作"承接前文的 然而 ,然后…"。保留了语篇信号但不把连接词误绑为句内修饰。 方案 3:丢弃 (若下游不关心语篇衔接) ((真实世界 > (复杂 & (规则:不明确))) & ((不可预知:问题) > 频发)) > 使得 > (...) 常见跨句连接词 关系 代表词 方案 2 写法 转折 然而 / 不过 / 但是 / 可是 然而 > (本句) 推论 因此 / 所以 / 故而 因此 > (本句) 递进 从而 / 进而 / 并且 从而 > (本句) 补充 此外 / 另外 / 而且 此外 > (本句) 总括 总之 / 综上 / 简言之 总之 > (本句) 举例 例如 / 比如 例如 > (本句) 四、标准拓扑模型 4.1 基本动作模型 拓扑 : 施事 > 动作 > 受事 他 > 吃 > 苹果 论文 > 引用 > (前人 : 工作) 4.2 话题-核心模型 原句 :在AI辅助编程方面,Karpathy更偏向"协作式中间态"。 (AI辅助编程方面) : (Karpathy > (更 : 偏向) > 协作式中间态) 解读 :整个主命题被"AI辅助编程方面"这个原子背景限定——即命题只在此范围内评真值。 AI辅助编程 、 协作式中间态 作为专有术语保持原子粒度。 4.3 身份嵌套模型 原句 :OpenAI的创始元老Karpathy表示AGI仍有十年之遥。 (OpenAI : 创始 : 元老) : Karpathy > 表示 > (AGI > 仍有 > 十年之遥) 身份直接作为属性绑定到 Karpathy。"十年之遥"为原子词项。 4.4 致使模型 拓扑 : A > 致使词 > (B > 动作 > C) —— 嵌入命题必须封装。 原句 :论文促使Tishby认识到理论可能涵盖广泛的过程。 论文 > 促使 > (Tishby > 认识到 > (理论 > (可能 : 涵盖) > (广泛 : 过程))) 原句 :测试设定了失败后不能重玩的限制,从而迫使智能体在行动前先想象不同策略的结果。 测试 > (设定 > ((失败后 & (不能:重玩)):限制)) > 从而 > 迫使 > (智能体 > (在:行动前) > (先:想象) > (不同:策略:结果)) 为什么嵌入命题必封装 : 嵌入命题有自己的主语——"论文促使 Tishby…"中"论文"和"Tishby"不同,属主语切换。 避免外层算子侵入——不封装时,内层命题末尾的 > 节点会被读成外层链的延续,辖域混乱。 回读一致性——封装后 A > 迫使 > (B > 做 > C) 读作 "A 迫使 [B 做 C]";不封装则读成 "A 迫使 B 做 C",当内层含多段 > 时必然串台。 4.5 条件模型 拓扑 : (条件命题) > 则 > (结果命题) 原句 :该计划如果不公开,就无法获得认可。 (该计划 > 不公开) > 则 > (该计划 > (无法:获得) > 认可) 4.6 让步模型 拓扑 : (命题1) > 尽管 > (命题2) 原句 :尽管下雨,比赛仍然继续。 (天 > 下雨) > 尽管 > (比赛 > (仍然 : 继续)) 4.7 因果链模型 原句 :经济下行导致消费萎缩,因此企业被迫裁员。 (经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > (被迫 : 裁员)) 链式 > 让整条因果推导在语法上呈现为一条直线。由于主语在三命题间切换(经济/消费/企业),需要封装两端。 反向连接词正向化 : 原句 :由于每步想象都会增加计算成本,智能体会在初期想象多步结果。 ((每步:想象) > (都会:增加) > (计算:成本)) > 所以 > (智能体 > (初期:会) > 想象 > 多步结果) 注意"由于"替换为"所以",使 > 方向与因果流同向; (初期:会) 为语义重排,使修饰关系显式。 4.8 同主语扁平链模型 原句 :它们能够学习阐释其内部模拟过程,从而使用即使不完美的环境动态模型。 它们 > (能够:学习) > 阐释 > (其:内部模拟过程) > 从而 > 使用 > ((即使:不完美):环境动态模型) 同主语承前省略,采用扁平 > 链,不重复主语也不封装两端。 4.9 介词/方位作 > 链阶段 原句 :已有算法如AlphaGo能在规则完美的环境中利用内部模型进行推理和计划。 ((如:AlphaGo):已有算法) > 能在 > 规则完美环境中 > 利用 > 内部模型 > 进行 > (推理 & 计划) "能在"(模态+介词)作中段;"规则完美环境中"是操作流的一个阶段,保留在线性 > 链里比上提更忠实语义。 4.10 被动与否定复合模型 原句 :现有框架不仅不适用,而且必须被立刻替换。 (现有 : 框架) > ((不 : 适用) & (必须 : 被 : 立刻 : 替换)) 4.11 量化模型 4.11.1 范围量化词(修饰主语 NP) 绑在主语 NP 上,作主语的左限定: 所有 : 学生 > 通过 > 考试 没有 学生 > 通过 > 考试 ("没有"为原子) 某 : 学生 > 通过 > 考试 每个 : 学生 > 通过 > 考试 4.11.2 分布量化副词(绑动词头) 均 / 都 / 全 / 各 / 皆 / 分别 ——不修饰主语 NP,而是声明"对外层 scope 中每个元素,命题独立成立"。按 §3.5 状语-动词绑定模式 (scope:V) 处理: (A:表现) > (均:优于) > (B:表现) 学生 > (都:通过) > 考试 他们 > (分别:完成) > 任务 冗余省略 :当外层 scope 已表达全称( 这两种X中 / 所有X中 / 每个X时 / 两者都 ),分布副词 冗余可省 ——scope 包络 + 单一命题 = ∀ 已被结构编码: (这两种:任务中) : ((A:表现) > 优于 > (B:表现)) (省"均",scope 已蕴含 ∀) (这两种:任务中) : ((A:表现) > (均:优于) > (B:表现)) (保留"均"以贴原句字面) 两种写法语义等价,前者更扁平、后者更贴字面。 禁形 : ❌ (均:(A:表现)) > 优于 > (B:表现) ("均"非属性修饰,"均的表现"不通) ❌ (A:表现) > 均 > 优于 > (B:表现) ("均"非传递阶段;且违反约束 7 比较连词不带修饰) ✅ (A:表现) > (均:优于) > (B:表现) (副词紧贴动词,符合 §3.5 状语-动词绑定) 4.11.3 区分要点 类别 示例词 绑定位置 范围量化词 所有 / 某 / 没有 / 每个 / 任一 : 修饰主语 NP(§4.11.1) 分布量化副词 均 / 都 / 全 / 各 / 皆 / 分别 (scope:V) 绑动词头(§4.11.2 / §3.5) 频次 / 时体 / 范围副词 再次 / 已经 / 一起 (scope:V) 绑动词头(§3.5) 判定 :能否换成"和……都……"或"每个……都……"重写?换得通是分布副词(4.11.2),不通是范围量化词(4.11.1)。 4.12 句子级副词模型 原句 :显然,他错了。 显然 : (他 > 错了) 原句 :不幸的是,实验失败了。 (不幸 : 的是) : (实验 > 失败) 句子级副词通过 : 绑定到封装命题上,辖域精确锁定为整个命题。 4.13 跨句连接词模型 原句 :然而,真实世界复杂且规则不明确,不可预知的问题频发。 然而 > ((真实世界 > (复杂 & (规则:不明确))) & ((不可预知:问题) > 频发)) 句首"然而"作 > 首节点,不与 : 混淆。 4.14 比较模型 原句 :A 比 B 更大。 A > (比 : B : 更 : 大) 或等价写法: (A & B) > 比较 > (A > 更大) 前者把"比B更大"视为A的谓词属性,后者把比较视为一个显式的逻辑力。 比较连词作 > 中段 :优于 / 胜过 / 不如 / 堪比 / 逊于 / 超过 ——必须 > + 完整两端比较项,不得把比较项 NP 塞进 : 右侧: ✅ A > 优于 > B ❌ A > (胜过:B) (比较项 B 被吞为 V 属性) 副词修饰比较连词 :使用 (adv:比较词) 形式(§3.5 状语-动词绑定): ✅ (A:表现) > (均:优于) > (B:表现) ✅ X > (明显:胜过) > Y ✅ 方案A > (略微:逊于) > 方案B 注意 (adv:V) 中 V 仍是动词头,比较结构 S > V > O 完整可抽——这与禁形 (V:NP) 形似而本质不同。 4.15 疑问与祈使模型 疑问 :"他吃了吗?" 疑问 : (他 > 吃了) 祈使 :"请关门。" 祈使 : (你 > 关 > 门) 语气作为句子级属性绑定到命题封装域上。 五、实战长难句解析 挑战句 原句 :作为前负责人,Karpathy 今天明确向团队表示,该计划如果不公开,就无法获得认可。 SVO 表达式 (前 : 负责人) : Karpathy > ((今天 & 明确 & (向 : 团队)) : 表示) > ((该计划 > 不公开) > 则 > (该计划 > (无法 : 获得) > 认可)) 逐层解析 实体限定 (属性本体): (前:负责人) : Karpathy —— 身份作为复合属性绑定到实体。 动作谓词 (属性本体): ((今天 & 明确 & (向:团队)) : 表示) —— 时间、方式、对象三属性合取后限定"表示"。 主动作流 (力本体): Karpathy > (...) > (...) —— 施事→言说动作→言说内容。 言说内容 (力本体): ((该计划 > 不公开) > 则 > (...)) —— 条件命题通过逻辑连词"则"驱动结果命题。 条件命题 : (该计划 > 不公开) —— 前件,完整命题封装。"不公开"中"不"与"公开"为临时否定组合,可用 : 拆为 不:公开 ,此处选择合并为原子以简化。 结果命题 : (该计划 > (无法 : 获得) > 认可) —— 后件,完整命题封装;"无法"为高频合成词原子。 粗粒度 vs 细粒度对比 算式合法不代表好用。下面两组对照展示粗粒度化的实际效果——同样一句话,过度原子化会陷入"LISP 括号综合征",而粗粒度版能让语义重心一眼可见。 对比示例 1:DeepMind 智能体 原句 :DeepMind 通过赋予智能体想象力,提升智能体在复杂不完美环境中的学习效率和决策鲁棒性。 ❌ 过度原子化 : DeepMind > ((通过 : (DeepMind > 赋予 > 智能体 > 想象力)) : 提升) > (智能体 : ((((复杂 & 不完美) : 环境) : 中) : ((学习 : 效率) & (决策 : 鲁棒性)))) ✅ 粗粒度优化版 : (复杂不完美环境) : (DeepMind > ((通过 : (赋予 > 想象力)) : 提升) > 智能体:(学习效率 & 决策鲁棒性)) 优化点 : 辖域上提 :把"复杂不完美环境"作为整个命题的背景,提到最前面。 组块坍缩 : 复杂不完美环境 、 学习效率 、 决策鲁棒性 各自合并为原子词项。 省略主语重复 :施事 DeepMind 在主句中已出现,从属命题里的主语可省略为 赋予 > 想象力 。 方位词归并 : 环境中 直接合并,不写作 环境 : 中 。 对比示例 2:智能体决策 原句 :该智能体还能决定例如测试不同行动或构建复杂想象树的想象方式,并能优化计划的经济性和效率。 ✅ 粗粒度版 : 智能体 > (决定 > (例如:(测试>不同行动) | (构建>复杂想象树)) : 想象方式) & (优化 > 计划:(经济性 & 效率)) 优化点 : 虚词省略 : 该 、 还 、 能 、 并 不承载逻辑重量时删除。 组块坍缩 : 想象树 、 想象方式 、 不同行动 合并为原子词项。 扁平化 : (经济性 & 效率) 一次性并联绑定到 计划 。 六、书写步骤 总原则 :按原句语序从左到右写,遇到结构点才启用算子。字面扭曲时语义重心优先,最终用"回读检验"兜底。 句首扫描 :若句首为跨句连接词(然而/因此/从而/此外/总之 等),按 §3.10 方案 2 作 > 首节点,然后按下列流程处理剩余主体。 标原子词项 :扫一遍句子,把专有名词、行业术语、偏正复合词、固定搭配、 高频合成词 (不能/没有/无法 等)标记为原子,后续不拆分。 识别主干 :主语、主动词(或主命题)、宾语/补语。 按原句顺序组装 : 修饰关系 → : 绑定(修饰在左,被修饰在右; 不与"的"并存 ) 动作/逻辑流 → > 驱动(按原句顺序串联,中段填原句里的动词/介词/连接词; 反向连接词正向化 ) 原句并列项 → & / | 字面 vs 语义 :字面语序扭曲语义重心时允许重排(省略冗余承接词、状语就近绑定、并列动作 & 切分)。 封装辖域 : 逻辑流 > 两端若是完整命题 → 必须 ( ) , 除同主语扁平链 : 右操作数若是完整命题 → ( ) 致使结构的嵌入命题 → ( ) 连续 : 语义分组与左结合不符 → ( ) ;三层以上必封装 原句不歧义但 SVO 写法会引入歧义 → ( ) 消解 自检(硬约束) : 没有把命题关系压成定语 没有拆解专有名词、术语、固定搭配、高频合成词 没有 SVO 层面引入的新歧义 致使结构嵌入命题已封装 "的"与 : 没有并存 跨句连接词没作 : 绑本句 算式内没有中文标点 回读检验 (最终检验):把算式按结合律读成自然语言一遍,应与原句语义接近。读起来拗口或偏离原意 → 回去改。 七、常见陷阱 陷阱分两级: 错解 (必须修复)与 可读性问题 (建议修复)。 7.1 错解(对应 §1.1 硬性约束) 错解一:把命题关系压成定语 ❌ ((不:公开):该计划) > 则 > (...) ✅ (该计划 > 不公开) > 则 > (...) 条件必须是完整命题。 错解二:拆解专有名词、术语、固定搭配、高频合成词 ❌ 深度 : 强化 : 学习 ❌ 不 : 能 ❌ (基于 : 想象) : 计划 : 方法 ❌ 没 : 有 ✅ 深度强化学习 ✅ 不能 ✅ 基于想象的计划方法 ✅ 没有 错解三:必要的辖域封装缺失 ❌ 显然 他 > 错了 ❌ P > 则 > Q ✅ 显然 : (他 > 错了) ✅ (P) > 则 > (Q) 错解四:致使结构嵌入命题未封装 ❌ A > 迫使 > B > 在:行动前 > 想象 > C ✅ A > 迫使 > (B > (在:行动前) > 想象 > C) ❌ 论文 > 促使 > T > 认识到 > (...) ✅ 论文 > 促使 > (T > 认识到 > (...)) 致使结构的外层主语与内层主语不同,不是承前省略,属于主语切换。 错解五: : 与"的"并存 ❌ 基于想象的:计划方法 ❌ 其:发表的:两篇:相关论文 ✅ (基于:想象):计划方法 ✅ (其:发表):(两篇:相关论文) 错解六:跨句连接词作 : 绑本句 ❌ 然而 : (真实世界 > 复杂) ✅ 然而 > (真实世界 > (复杂 & (规则:不明确))) 错解七: > 方向与因果流相反 ❌ (结果) > 由于 > (原因) ✅ (原因) > 所以 > (结果) 错解八:中文标点作分隔符 ❌ DeepMind:最新博客 > 介绍 > ... ,论文 > 共同探讨 > ... ✅ ((DeepMind:最新博客) > 介绍 > (...)) & ((该两篇论文) > (共同:探讨) > (...)) 或拆成多行。 7.2 可读性问题(建议修复) 话题辖域不清 歧义 (AI:方面) : Karpathy > 偏向 > X 明确 (AI:方面) : (Karpathy > 偏向 > X) (整命题都在 AI 方面) 明确 Karpathy > ((AI:方面):偏向) > X (仅动作在 AI 方面) 俄罗斯套娃式嵌套 较差 ((((复杂&不完美):环境):中):((学习:效率)&(决策:鲁棒性))) 较好 ((复杂&不完美):环境中) : (学习效率 & 决策鲁棒性) 更好 复杂不完美环境中 : (学习效率 & 决策鲁棒性) 方位词并入名词、同层修饰先 & 后 : 一次绑定。 连续 : 辖域模糊 ❌ 其:发表的:两篇:相关论文 (左结合解析:((其:发表的):两篇):相关:论文 — 串台) ✅ (其:发表):(两篇:相关论文) 三层以上的连续 : 几乎总需封装。 范围/背景深埋 vs 操作流阶段 较差 DeepMind > 提升 > (智能体:(复杂不完美环境中:(学习效率&决策鲁棒性))) 较好 (复杂不完美环境):(DeepMind > 提升 > 智能体:(学习效率 & 决策鲁棒性)) 但若场景是操作流阶段:"先到 X 再做 Y",保留线性: ✅ 算法 > 能在 > 环境中 > 利用 > 模型 > 进行 > 计划 同主语强制封装 较差 (它们 > 学习 > X) > 从而 > (它们 > 使用 > Y) 较好 它们 > 学习 > X > 从而 > 使用 > Y 承前省略应被尊重。 字面语序绑架语义 较差 智能体 > (在:初期) > ((想象 > (多步:结果)) & (据此:行动)) 较好 智能体 > (初期:会) > (想象 > 多步结果) & 行动 "据此"与 & 语义冗余可省略;"会在初期"重排为 (初期:会) 使修饰关系显式。 冗余括号 按 §3.7「冗余括号识别」,下列写法都可去括号: 较差 ((不可预知:问题) > 频发) 较好 不可预知:问题 > 频发 较差 (DeepMind:最新博客) > 介绍 > ((其:发表):(两篇:相关论文)) 较好 DeepMind:最新博客 > 介绍 > (其:发表):(两篇:相关论文) (`(其:发表):(两篇:相关论文)` 内的两层 `:` 分簇必须保留;外层括号可去) 较差 (智能体:学习效率) & (智能体:决策鲁棒性) 较好 智能体:学习效率 & 智能体:决策鲁棒性 较差 几个:(显著:特征) 较好 几个:显著:特征 但下列括号是结构性必需, 不要去 : ✅ ... > (复杂 & 规则:不明确) (`&` 在 `>` 操作数内) ✅ 显然 : (他 > 错了) (`>` 命题作 `:` 右操作数) ✅ 论文 > 促使 > (T > 认识到 > (...)) (致使嵌入命题) ✅ (其:发表):(两篇:相关论文) (连续 `:` 真实分簇) 附录:判定口诀 能回读成原句的就是对的算式。 限定什么东西是什么 → : 描述能量/顺序从哪流到哪 → > 原句里本就并列 → & / | 整块要被外层作用 → ( ) 形式规则启动点: 命题关系别被压成定语。 专有名词、高频合成词(不能/没有/无法 …)别拆。 有歧义就封装;致使结构的嵌入命题必封装。 跨句连接词作 > 首节点,不用 : 。 > 方向与能量/因果流同向;反向连接词(由于/because)正向化为(所以/so)。 : 与"的"不共存;中文标点不是分隔符。 同主语承前省略 → 扁平 > 链;主语切换 / 并列 / 多段嵌套链 → 两端封装。 其他一切按原句写。