# SVO

# SMO手册

# SMO 手册（设计原理）

> 设计层面的"为什么"。算子表 / 投影律 / 良构律 / 范例 在 `SMO指令.md`（由 `spec/smo_spec.yaml` 自动渲染）。两文档零重叠。

---

## 一、SMO 是什么

**SMO（Semantic Meta Operator）**= 把自然语言投影为**类型化图**的形式系统。

```
自然语言句子          SMO 算式（中间形式）        Typed graph（最终消费形态）
──────────           ──────────────────         ──────────────────────────
他能够使用想象力     他 > 能力(使用) > 想象力     proposition(verb=使用,
                                                  slots.agent=他,
                                                  gates.modality=能力,
                                                  slots.theme=想象力)
```

人读自然语言；下游图扩散读 graph；SMO 在中间作桥梁——把汉语句子的语义形式化得足够紧，让下游 graph parser 机械抽取节点和边。

---

## 二、三层骨架

```
第一层 · 三个算子                  第二层 · 5 个 scope（按作用维度）          第三层 · 6 元原则
─────────────────                  ────────────────────────────────         ────────────────────
 :    挂载（M : H → H'）            slot   → prop.slots.<role>                M1 不双重编码
 >    驱动（concept 之间）           gate   → prop.gates.{modality,...}        M2 槽语义保真
 ( )  封装 + 函数式 op(args)        conn   → logic_prop                       M3 作用域不交错
                                    junct  → junct[T] 节点                    M4 算子函数式
                                    mod    → modifier 边                       M5 canonical ≠ 内容词
                                                                              M6 省略要级联
```

整张关系字典都是**第二层的填表**；4 投影律（PL1-PL4）和 3 良构律（WL1-WL3）都是**第三层 6 元原则在不同 scope 上的实例化**。

---

## 三、为什么是 scope，不是 letter class

v1 的 11 个 letter class（B/C/D/E/F/G/H/I/J/K/L）是按"中文功能词的细分语义"切的；v2 的 5 个 scope 是按"在 typed graph 上作用的字段维度"切的。后者更本质：

- syntax 形态由 scope 决定：slot 必 `r(C):V`，gate 必 `r(V)`，conn 必 `r(P, Q)`，junct 必 `r(X, Y, ...)`，mod 按 target 选挂载方式。
- graph 投影机械可推：scope 决定字段位置，canonical 名决定字段值。
- 类内细分（如 modality / polarity / quantifier / tense 都是 gate）只用于语义路由，不影响 syntax。

把 11 类合到 5 类后，跨切面规则数量大约从 30+ 降到 4——因为原 P-rule 多数是"某 class 不能这样用"的特化形式，scope 一统就退化成 PL1 的子情况。

---

## 四、`:` 修饰挂载的统一定义

`:` 是**单一**修饰挂载算子：`M : H -> H'`（M 挂到 H 上，输出与 H 同型）。合法 (M, H) 对仅三种模式（详见 `SMO指令.md §1.1`）：

- **NP-attribution**：concept/cluster/prop 修饰 concept/cluster（包括主动定语从句）
- **Slot-mount**：scope=slot 的关系挂在 verb/prop 上
- **Cluster-mod**：scope=mod & target=cluster 的关系挂在 cluster 上

新增挂载形态 = 表里加一行，不需要新 W 规则。早期 fix1-fix20 反复补 W-N 的根因是把 `:` 当成多种独立操作；统一为 (M, H) 表后这类反复就消失了。

---

## 五、`>` 驱动的语义

`>` 仅承载值（concept/cluster/prop），不能是关系名。原因：graph 投影时 `A > V > O` → `proposition(verb=V, slots.agent=A, slots.theme=O)`，A/V/O 都是节点 ID，关系名混入会破坏整一性。

所有关系都用函数式 `r(args)` 承载，不入 `>` 中段。这是 PL1（M4 函数式纯净）的根据。

---

## 六、surface 双层退役（v2 重要决策）

v1 在算式里既写 surface 也写 canonical（`了` ↔ `完成`），多义 surface 还要带 `[canonical]` 标签。**v2 退役这套机制**：

- 算式里**只写 canonical**（`完成(走)` 而非 `了(走)`）
- surface 退到关系字典的 `surfaces` 字段，**只在回写方向用**作 readback 候选
- 多义 surface 在投影方向直接由 LLM 用上下文消歧，不再需要标签

代价：失去原句字面词偏好（v1 保留 `了/已经/已`，v2 默认只用首项）。换来的是：

| 项 | v1 | v2 |
|---|---|---|
| 算子表条目 | 70+ canonical × 80+ surface | 70 canonical（surface 只是 readback hint） |
| 多义消歧 | 14 行 multi_surfaces 表 + `[canonical]` 语法 | 无 |
| LLM 提示词 | ~6k token | ~3k token |
| P-rule 数 | 27 | 4（PL1-PL4） |
| Lint E-code 数 | 25+ | 3 良构律 + 类型检查 |

兼容性：parser 仍接受旧式 surface 写法（`了(通过)` `都[全称]`），demo 暂不需要重写。新生成的算式应优先 canonical 形式。

---

## 七、回译 = 最高检验

```
LLM:  自然语言 → SMO 算式 → 自然语言
                              ↑
                    应与原句语义近似
```

所有规则（PL/WL/M）都是**辅助工具**。最终判定是回译保真：投影出来的算式让 LLM 回写回中文，应跟原句语义近似。

推论：
- **回译不一致 = LLM 转换错误**，不是 SMO 算式错误。
- **形式良构 ≠ 语义正确**——`S > V > O` 良构但 V 选错 canonical 时回译就崩。
- **lint 不能保证正确**，只能保证良构；语义错只能靠回译人审或 demo 基准比对捕捉。

回译没有自动化 metric（中文有多种合法变体），是人审 + demo 基准的混合校验。

---

## 八、Graph schema（下游对接）

SMO 算式的最终消费方是 typed graph：

```
Concept 节点:    canonical / role / vector
Action prop:     verb + slots.<role> + gates.{polarity,modality,quantifier,tense,voice}
Logic prop:      antecedent + consequent + connector_class
边类型:          slot:<role> / modifier / within_cluster / coref / seq
```

每个 SMO 关系 → graph 字段的映射由 `spec/smo_spec.yaml` 中关系的 `scope` 与 `role`/`gate_field` 决定，机械投影。完整对照见 `SVO语义检索的系统化方案.md §2.1`。

下游扩散检索消费的是 graph，不是 SMO 文本。所以 SMO 设计的最高目标是**"投出来的 graph 字段干净" + "回译能保真"**——其它原则都为这两件事服务。

---

## 九、规范的演化

### 9.1 文件分工（零重叠）

| 文件 | 作用 | 形态 |
|---|---|---|
| `SMO手册.md`（本文件） | 设计原理 / why | 手写 |
| `SMO指令.md` | 关系字典 / 投影律 / 良构律 / 范例 | 自动渲染 |
| `spec/smo_spec.yaml` | 单一数据源 | 手编 yaml |
| `spec/render/instruction.py` | yaml → `SMO指令.md` 渲染器 | 手写代码 |
| `spec/lint/{parser,validator}.py` | SMO 算式 parser + 校验器 | 手写代码 |
| `fix/fix*.md` | design log（不是规范） | 手写 |
| `demo/*.txt` | NL ↔ SMO 配对回归基准 | 人工标注 |

派生关系：

```
spec/smo_spec.yaml
   ├──→ SMO指令.md           （自动渲染）
   ├──→ spec/lint/validator  （直接读 yaml 校验算式）
   └──→ 未来：parser / graph 投影
```

### 9.2 修订流程

```
改原理 / 加新论证               →  改本文件（手写）
改关系字典 / 投影律 / lint     →  改 spec/smo_spec.yaml → python -m spec.build.cli render
改 lint 实现                   →  改 spec/lint/validator.py
任何改动后                     →  python -m spec.build.cli lint demo
```

### 9.3 fix*.md 是 design log

`fix/fix1.md` ~ `fix/fix25.md` 是历史档案——记录"为什么从 A 改到 B"的设计辨论。它们**不是当前规范**，规范在本文件 + `SMO指令.md` + `spec/smo_spec.yaml` 三处一致表达。

新增 fix-N 的目的是留下"为什么这样改 + 影响了哪些 demo 行 / 哪些 lint"的决策档案，规则改 yaml 即可。

---

## 附 · 阅读路径

* 第一次读：本文件全篇（约 15 分钟）→ `SMO指令.md` §三 关系字典 + §七 范例（10 分钟）
* 投影时查询：`SMO指令.md` §三 关系字典 + §四 投影律
* 实现 parser / graph 投影：`spec/smo_spec.yaml` + 本文件 §八 graph schema
* 修订规范：本文件 §九

# SMO指令

# SMO 转换提示词（v2 · scope-based）

你是 SMO 转换引擎。

- **投影方向**（自然语言 → SMO 算式）：执行 §四 投影律（PL1-PL4）。
- **回写方向**（SMO 算式 → 自然语言）：按 §三 关系字典的 readback 模板填充，多义动词按上下文从该条 surface 候选中挑选。

每个输入**单行**输出，不加说明。设计原理见 `SMO手册.md`。

> 本文件由 `spec/smo_spec.yaml` 渲染生成（`python -m spec.render.instruction`）；不要直接编辑。

***


## 一、算式语法

```
e ::= concept           汉语原子词
    | r(e, ...)         关系调用（r 是关系字典中的 canonical 名）
    | e : e             修饰挂载（M : H -> H'，输出与 H 同型）
    | e > e             驱动（命题流：A > V > O）
    | (e)               封装

合法符号：` : > , ( ) `（5 类）。中文标点不入算式。
优先级：`( )  >  ,  >  :  >  >`；`:` `>` 左结合；`,` 仅在 `()` 内作 arg 分隔。
```

### 1.1 `:` 挂载的合法 (M, H) 对

`:` 是修饰挂载算子。`M : H -> H'` —— M 作修饰边附加到 H 上，输出与 H 同型。
仅以下三种 (M, H) 模式合法（不在表内即非法 → WL2）：

```
模式            M 类型                  H 类型             例
─────           ──────────              ─────────          ─────────────────────
NP-attribution  concept|cluster|prop    concept|cluster    红色:汽车 / (搭载>这些:芯片):计算机
Slot-mount      scope=slot 的 r(arg)    verb|prop          源点(C):V / 时空(C):(P)
Cluster-mod     scope=mod & target=     cluster            即使[NP让步]:模型 / 至少:三层
                cluster 的 r(arg)

禁用 LHS：scope ∈ {conn, junct} 的 canonical 名不得作 `:` 左操作数；
         scope=mod 且 target ∈ {verb, prop} 的关系（K/I 类）也一律函数式包裹（不写 K:H）。
`:` 与中文 '的' / '地' 不共存——算式中 `:` 已表示这两个虚词。
```

***


## 二、五种 scope（关系按作用维度分类）

每条关系（关系字典见 §三）属于以下 5 个 scope 之一。scope 决定它在 typed graph 上的字段位置，也决定它的合法语法形态：

```
scope    形式                       下游 graph 字段                旧 class
─────    ─────────────────────      ────────────────────────────   ────────
slot     slot(C):V                  prop.slots.<role>              B
gate     gate(V) 前缀               prop.gates.{modality,           C/D/E/F
                                    polarity,quantifier,tense}
conn     conn(P, Q) 函数式          logic_prop                     G
junct    junct(X, Y, ...) 函数式    junct[T] 节点                  J
mod      mod(arg) 或 mod(X):H       modifier 边                    H/I/K/L
```

scope 之间的语法约束（由 PL1 函数式纯净直接给出）：
- `slot`：必须 `r(arg):V` 形式挂在 verb/prop 上（`被动` 例外，单参函数）
- `gate`：必须前缀 `r(V)`，不允许后缀 `V > r()`
- `conn`：必须 `r(P, Q)` 函数式，不允许 infix `(P) > r > (Q)`
- `junct`：函数式 `r(X, Y, ...)`，参数必同型；命题级合取走 `顺合` 不走 `平合`
- `mod`：按 target 字段决定挂载方式
  - target=concept（H 类共指）：`r(arg)`，输出与 concept 同型
  - target=prop, position=outermost（I 类句级语气）：`r(P)` 必在最外层
  - target=verb（K 类话语副词）：`r(V)` 函数式，**不写 `K:H`**
  - target=cluster（L 类子句修饰）：`r(arg):cluster` 才合法

***


## 三、关系字典

每行 = 一条关系。`sig` 是法定语法形态；`surfaces` 是回写候选 surface（首项为默认）；`readback` 是回写模板。

**投影方向**：原文功能词识别为某关系，写其 canonical 名 + sig 形态。
**回写方向**：按 sig 解结构，按 surfaces 选词，按 readback 模板填出。

### 3.1 scope=slot（题元槽，11 项）

挂载形态：`r(C):V`（B-被动 单参 `被动(V)`）。多 slot 链：`源点(A):工具(B):目标(C):V`。可挂整命题：`时空(环境中):(S > V > O)`。

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 源点 | `源点(C):V` | `从 {arg} {host}` | 从, 自 |
| 工具 | `工具(C):V` | `通过 {arg} {host}` | 通过, 借助, 凭借, 用 |
| 目标 | `目标(C):V` | `对 {arg} {host}` | 对, 向, 朝 |
| 受益 | `受益(C):V` | `为 {arg} {host}` | 为, 给 |
| 处置 | `处置(C):V` | `把 {arg} {host}` | 把, 将 |
| 被动 | `被动(V)` | `被 {arg}` | 被, 受 |
| 施事 | `施事(C):V` | `由 {arg} {host}` | 由 |
| 话题 | `话题(C):V` | `关于 {arg} {host}` | 关于, 对于, 至于 |
| 时空 | `时空(C):V` | `在 {arg} {host}（地点）/ {arg} {host}（时间副词不加'在'）` | 在 (后接地点/时间) |
| 身份 | `身份(C):V` | `作为 {arg} {host}` | 作为, 充当, 以...身份 |
| 依据 | `依据(C):V` | `根据 {arg} {host}` | 根据, 据, 依, 凭 |

### 3.2 scope=gate（命题闸，18 项 · 前缀 `r(V)`）

按 graph 字段细分（4 个）：

**modality（情态）**（9 项）

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 能力 | `能力(V)` | `能 {arg}` | 能, 能够, 会(能动) |
| 许可 | `许可(V)` | `可以 {arg}` | 可以, 能(许可) |
| 义务 | `义务(V)` | `应该 {arg}` | 应该, 必须, 须, 该, 要(义务) |
| 必要 | `必要(V)` | `需要 {arg}` | 需, 需要, 有必要 |
| 可能 | `可能(V)` | `可能 {arg}` | 可能, 也许, 会(可能) |
| 意愿 | `意愿(V)` | `想 {arg}` | 想, 希望, 要, 愿意 |
| 无能力 | `无能力(V)` | `不能 {arg}` | 不能, 无法, 没法, 没能, 未能, ... (6 项) |
| 无许可 | `无许可(V)` | `不可以 {arg}` | 不可以, 不许, 不准, 禁止 |
| 无义务 | `无义务(V)` | `不必 {arg}` | 不必, 不用, 无须, 勿 |

**polarity（极性）**（2 项）

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 否定 | `否定(V)` | `不 {arg}` | 不, 未, 非 |
| 存否 | `存否(V)` | `没 {arg}` | 没, 没有, 无 |

**quantifier（量化）**（3 项）

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 全称 | `全称(V)` | `所有 {arg}` | 所有, 每, 任何, 全, 都, ... (8 项) |
| 存在 | `存在(V)` | `一些 {arg}` | 某, 一些, 几, 许多, 有些, ... (6 项) |
| 不定 | `不定(V)` | `几 {arg}` | 几, 多, 少 |

**tense（时体，仅前缀位）**（4 项）

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 完成 | `完成(V)` | `{arg} 了` | 了, 已经, 已 |
| 进行 | `进行(V)` | `正在 {arg}` | 着, 正在, 在(进行) |
| 经历 | `经历(V)` | `{arg} 过` | 过, 曾经, 曾 |
| 将来 | `将来(V)` | `即将 {arg}` | 即将, 将, 行将 |

### 3.3 scope=conn（命题连接，13 项 · `r(P, Q)`）

链式连接通过嵌套：`推论(致使(P1, P2), P3)`。

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 条件 | `条件(P, Q)` | `如果 {a1}，{a2}` | 如果, 则, 那么, 就, 若, ... (9 项) |
| 让步 | `让步(P, Q)` | `尽管 {a1}，{a2}` | 尽管, 虽然, 即使(逻辑), 纵然, 哪怕 |
| 因果 | `因果(P, Q)` | `由于 {a1}，{a2}` | 由于, 因为 |
| 推论 | `推论(P, Q)` | `{a1}，因此 {a2}` | 因此, 所以, 因而, 从而, 故, ... (7 项) |
| 目的 | `目的(P, Q)` | `{a1}，为了 {a2}` | 为了, 以便, 旨在, 力求, 以, ... (7 项) |
| 致使 | `致使(P, Q)` | `{a1} 使 {a2}` | 使, 让, 令, 促使, 迫使, ... (8 项) |
| 认知 | `认知(P, Q)` | `{a1} 认为 {a2}` | 认为, 表明, 显示, 证明, 证实, ... (11 项) |
| 比较 | `比较(P, Q)` | `{a1} 优于 {a2}` | 优于, 胜过, 不如, 堪比, 逊于, ... (9 项) |
| 言说 | `言说(S, T, P)` | `{a1} 告诉 {a2}：{a3}` | 告诉, 说, 问, 答, 声明, ... (23 项) |
| 举例 | `举例(P, Q)` | `{a1}，例如 {a2}` | 例如, 比如 |
| 同位 | `同位(P, Q)` | `{a1}，即 {a2}` | 即, 也就是说, 换言之, 亦即 |
| 转折 | `转折(P, Q)` | `{a1}，但是 {a2}` | 但是, 然而, 但, 不过, 可是 |
| 顺承 | `顺承(P, Q)` | `{a1}，接着 {a2}` | 接着, 然后, 接下来, 之后, 最后, ... (6 项) |

### 3.4 scope=junct（合取/析取，6 项 · `r(X, Y, ...)`）

`平合` 只接同型词项（concept/cluster），**不接命题**——命题级合取走 `顺合` 或 conn 类。

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 平合 | `平合(X, Y, ...)` | `{a1} 和 {an}（多元用'、+和'）` | 和, 与, 同, 跟, 及 |
| 顺合 | `顺合(X, Y, ...)` | `{a1}，{a2}（命题级用'，'；词项级用'并/且/而'）` | 并, 且, 而 |
| 时合 | `时合(X, Y)` | `{a1} 同时 {a2}` | 同时(合取), 一边...一边 |
| 末项 | `末项(X, Y)` | `{a1} 以及 {a2}` | 以及 |
| 陈析 | `陈析(X, Y, ...)` | `{a1} 或 {a2}` | 或, 或者 |
| 疑析 | `疑析(X, Y, ...)` | `{a1} 还是 {a2}` | 还是 |

### 3.5 scope=mod（修饰子，22 项）

**target=concept · 共指代词，写作 r(C)**（5 项）

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 人称 | `人称(C)` | `{arg}` | 他, 它, 他们, 它们 |
| 属格 | `属格(C)` | `{arg}` | 其 |
| 指示 | `指示(C)` | `{arg}` | 该, 此 |
| 近指 | `近指(C)` | `{arg}` | 这, 这个 |
| 远指 | `远指(C)` | `{arg}` | 那, 那个 |

**target=prop · 句级语气，必在最外层，写作 r(P)**（6 项）

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 断定 | `断定(P)` | `显然，{arg}` | 显然, 显而易见, 当然, 真的 |
| 传闻 | `传闻(P)` | `据说，{arg}` | 据说, 听说, 据闻 |
| 断言 | `断言(P)` | `其实，{arg}` | 其实, 实际上, 事实上 |
| 焦点 | `焦点(P)` | `正是 {arg}` | 正是, 恰恰是, 就是, 偏偏是 |
| 情感 | `情感(P)` | `{arg}` | 不幸地, 幸运地, 遗憾地 |
| 祈疑 | `祈疑(P)` | `{arg}` | 请, 别, 吗(后置), 呢(后置) |

**target=verb · 话语副词，函数式 r(V)（不写 K:H）**（7 项）

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| 追加 | `追加(V)` | `也 {arg}` | 也, 还(添加), 又(累加), 而且 |
| 重复 | `重复(V)` | `又 {arg}` | 又(重复), 再, 一再, 反复 |
| 重启 | `重启(V)` | `重新 {arg}` | 重新, 再次, 重(K) |
| 限定 | `限定(V)` | `主要 {arg}` | 主要, 只, 仅, 才, 就(数量足够), ... (13 项) |
| 强调 | `强调(V)` | `很 {arg}` | 很, 非常, 特别, 尤其, 最, ... (17 项) |
| 持续 | `持续(V)` | `仍 {arg}` | 仍, 仍然, 依然, 还(持续) |
| 时序 | `时序(V)` | `先 {arg}` | 先, 之后, 后, 接着(K), 之前, ... (12 项) |

**target=cluster · 子句修饰，`:` 挂载 r(X):cluster**（4 项）

| canonical | sig | readback | surfaces 候选（首项=默认） |
|---|---|---|---|
| NP让步 | `NP让步(X):cluster` | `即使 {arg}` | 即使(NP), 哪怕, 纵然, 即便 |
| 下界 | `下界(X):cluster` | `至少 {arg}` | 至少, 起码 |
| 上界 | `上界(X):cluster` | `至多 {arg}` | 至多, 最多, 顶多 |
| 约略 | `约略(X):cluster` | `大约 {arg}` | 大约, 大致, 约 |

### 3.6 易错虚词速查（必识别）

v2 算式只写 canonical，但下列**功能词**与**同形 canonical** 容易出错。投影时必须按下表识别：

**功能词必投 canonical**（原文出现这些字时不能当 concept atom 写）：

```
  了 / 已 / 已经   → 完成   例：已标记 ❌ → 完成(标记) ✅
  着 / 正在       → 进行
  过 / 曾经 / 曾   → 经历
  即将 / 将 / 行将  → 将来
  不 / 未 / 非    → 否定   例：未标记 ❌ → 否定(标记) ✅
  没 / 没有 / 无   → 存否
```

**同形 canonical 警告**（这些关系名也是中文常用词，**只能函数式 r(...)**，不可裸出现在 `>` 链或当 concept）：

```
  焦点     (scope=mod)   例：... > 是 > 焦点 ❌ → 焦点(... > 是 > 讨论中心) ✅
  比较     (scope=conn)   例：权衡 > 比较 > 分析 ❌ → 比较(P, Q) 函数式 ✅
  强调     (scope=mod)
  限定     (scope=mod)
  同位     (scope=conn)
  转折     (scope=conn)
  完成     (scope=gate)   F-完成 vs 动词义'完成 X'：动词义直接写 完成 作 concept（如 能力(完成 > X)），F 类只在原文有 了/已 surface 时投影
```

**junct 同型提醒**：

> 平合 / 顺合 / 时合 / 末项 / 陈析 / 疑析 一律函数式；
> 平合 只接 concept/cluster；命题级合取一律走 顺合 或 conn 类。

**F 类按需投影**：

> F 类（完成 / 进行 / 经历 / 将来）按需投影：仅当原文出现对应 surface
> （了/着/过/即将 等）时才投。无触发不加，否则 R-NO-ADDITION 违反。

***

## 四、投影律（4 条）

从 6 元原则直接派生，覆盖原 30+ P-rule 的全部约束。每条投影律下 `Mn` 是元原则源头。

### PL1 · [M4] 函数式纯净

所有关系一律 `r(args)` 函数式形式；
`>` 中段必为 concept/cluster/prop（不可为关系名）；
`:` 左不可是 conn/junct 类的 canonical 名。

### PL2 · [M1] 单一编码

slot/conn 算子已隐式编码"从/通过/根据/被/为/把/由/使/为了/认为/告诉…"等连词或动词义；
宿主动词不可重述同义词。例：`工具(N):使用` ❌ → `工具(N):V`（V 是真动词）。

### PL3 · [M2] 槽语义保真

工具槽 ≠ 动作宾语；致使首参须真实指代（用 `目的(P, Q)` 替代 `致使(此, Q)`）；
让步=条件→主断言；比较=主体→参照；言说有外向 T，认知无；时空贴中心词。

### PL4 · [M3] 作用域不交叉

情态 ⊥ 体态（不嵌套）；时空贴中心 Z 而非外层；
句级语气（断定/传闻/断言/焦点/情感/祈疑）必须在最外层；
"S 表示希望 P" → `认知(S, 意愿(P))`，不扁平化。

***

## 五、良构律（3 条）

形式良构由这 3 条全覆盖；任何更细的检查都是它们的特化。lint 实现见 `spec/lint/validator.py`。

### WL1 · 关系名在字典内

所有 op_token 必须能在 operators 字典或 colon_patterns 中找到对应 canonical。

### WL2 · 冒号挂载类型对合法

':' 的 (M, H) 类型对必须在 colon_patterns 内；不在表内即非法（替代旧 W31/E-COLON-ILLEGAL-PAIR）。

### WL3 · 算式无中文标点

合法符号仅 : > , ( ) 五类；中文标点（，。、；！？）和符号 & | 一律不入算式。

> 良构 ≠ 语义正确。良构通过的算式若 verb 选错或槽义错位，回译仍会崩——靠人审 / demo 基准捕捉。

***

## 六、元原则（M1-M6）

PL1-PL4 与 WL1-WL3 都是这 6 条元原则在不同关系/形态上的实例化。新发现边缘问题先对照这 6 条看能否归入既有原则——能 → 加 instance；不能 → 才考虑新元原则。

| id | 元原则 | 一句话 |
|---|---|---|
| M1 | 单一编码（No Double-Encoding） | 算子已隐式编码某关系/动作时，同句中不再用同义动词显式重写。 |
| M2 | 槽位语义保真（Slot Semantic Integrity） | 每个槽位有明确语义角色，填入的子表达式必须语义吻合。 |
| M3 | 作用域非交叉（Scope Non-Interleaving） | 不同作用域的修饰子不可直接嵌套或层次错位。 |
| M4 | 函数式纯净（Function-Form Purity） | 所有非 A 类算子一律函数式 op(arg, ...)；> 中段必为值，: 左不可是 conn/junct。 |
| M5 | canonical-内容词解耦（Canonical-Content Disjointness） | canonical 名不与中文内容动词同形（如 E-存在 vs 动词'存在/有'）。 |
| M6 | 模板省略级联（Template Elision Cascade） | 代词省略时关联回写模板里的标点（逗号/顿号）也同步折叠。 |

***

## 七、范例

> 注：本范例集承袭 v1，部分算式仍含 surface 形式（如 `了` `都[全称]` `所有`）。v2 接受这些写法但不再要求；新算式优先用 canonical（如 `完成` `全称`）。`：` 已隐含 '的'/'地'。

| 输入 | 输出 |
|---|---|
| 显然，他错了。 | `显然(他 > 错(了))` |
| 现有框架不适用。 | `现有:框架 > 不(适用)` |
| 所有学生都通过了考试。 | `所有(学生) > 都[全称](了(通过)) > 考试` |
| 经济下行导致消费萎缩，因此企业被迫裁员。 | `因此(导致((经济 > 下行), (消费 > 萎缩)), (企业 > 被(致使(裁员))))` |
| 论文促使 Tishby 认识到理论可能涵盖广泛过程。 | `促使(论文, 认知(Tishby, (理论 > 可能(涵盖) > 广泛:过程)))` |
| 由于每步想象都会增加计算成本，智能体会在初期想象多步结果。 | `由于((每(步:想象) > 都[全称](会[可能](增加)) > 计算:成本), (时空(初期):(智能体 > 会[可能](想象) > 多:步:结果)))` |
| 1997 年，搭载这些芯片的'深蓝'计算机击败了世界冠军加里·卡斯帕罗夫。 | `时空(1997年):((搭载 > 这些:芯片):"深蓝":计算机 > 了(击败) > 世界:冠军:加里·卡斯帕罗夫)` |
| 影响了整个计算世界的芯片 | `(完成(影响) > 整个:计算世界):芯片` |
| 塑造了计算世界与日常生活的微芯片 | `(工具(独特:方式):深刻:完成(塑造) > 平合(计算世界, 日常生活)):微芯片` |
| 该芯片的设计理念是仅为'做好一件事'，即完美解码 MP3 数据。 | `同位(指示(该):芯片:设计:理念 > 是 > 仅[限定]("做好一件事"), 完美:解码 > MP3:数据)` |
| 在电影《E.T. 外星人》中，外星人 E.T. 正是用它搭建了星际通讯设备。 | `时空(电影《E.T. 外星人》中):焦点(外星人E.T. > 工具(人称(它)):完成(搭建) > 星际:通讯:设备)` |
| 它的诞生源于戈登·贝尔需要将电传打印机连接至 PDP-1 小型计算机。 | `属格(其):诞生 > 源于 > (戈登·贝尔 > 必要(处置(电传打印机):连接 > 至 > PDP-1:小型:计算机))` |
| 这款芯片的优势在于存储密度更高，尽管其具体设计和影响在原文中未完全展开。 | `让步(否定(完全展开(时空(原文中):具体:设计:和:影响)), (优势(近指(这):款:芯片) > 在于 > (存储:密度 > 更高)))` |
| 所有强化学习都可以在这一新视角下被重新解释。 | `时空(近指(这):新:视角):(所有(强化:学习) > 都[全称](许可(被动(重启(解释)))))` |
| 贝尔曼方程存在一个反直觉之处。 | `贝尔曼方程 > 有 > 一:个:反直觉:之处` |
| 传统方法使用贝尔曼方程来预测平均通勤时间。 | `传统:方法 > 工具(贝尔曼方程):预测 > 平均:通勤:时间` |
| 例如，可以解除随机性的来源。 | `举例(前述, 许可(解除 > 随机性:来源))` |
| 这种架构顶多支持到自动驾驶。 | `近指(这):种:架构 > 上界(支持 > 自动驾驶)` |
| 至少要保留三层。 | `下界(保留 > 三:层) > 必要` |
| 相比之下，GPU 主要使用片外内存。 | `比较((GPU > 主要[限定](使用) > 片外:内存), 前述)` |
| 另一个重要问题是存储。 | `另:一:个:重要:问题 > 是 > 存储` |
| Graphcore 的处理器同时支持训练和推理。 | `Graphcore:处理器 > 时合(支持 > 训练, 支持 > 推理)` |
| Graphcore 最终推出的 IPU。 | `(Graphcore > 时序(推出)):IPU` |
| 此前被报道过的全分辨率图像压缩技术，也是谷歌在本届CVPR的一个重点研究方向。 | `(时空(此前):被动(经历(报道))):全:分辨率:图像:压缩:技术 > 追加(是) > 谷歌:时空(本届CVPR):一:个:重点:研究:方向` |
| 该方法通过构建虚构边界框，将点击信息融入多实例学习框架。 | `指示(该):方法 > 工具(构建 > 虚构:边界:框):处置(点击:信息):融入 > 多:实例:学习:框架` |
| 使合成数据域的图像看起来像来自真实数据域。 | `致使(前述, 合成:数据:域:图像 > 源点(真实:数据:域):看起来像)` |
| 该方法基于生成对抗网络，旨在使合成数据域图像看起来像来自真实数据域。 | `目的(指示(该):方法 > 依据(生成对抗网络), 合成:数据:域:图像 > 源点(真实:数据:域):看起来像)` |
| 实验表明，该方案能训练出高质量检测器。 | `认知(实验, 指示(该):方案 > 能力(训练) > 高:质量:检测器)` |

***

## 八、输出格式

每个输入**单行**输出 SMO 算式（投影方向）或自然中文短句（回写方向），不加任何说明文字。

回译保真是最高检验——投影出来的算式让 LLM 回写回中文，应与原句语义近似。回译不一致 = LLM 转换错误（lint 不能保证语义正确，只能保证良构）。

# SVO表达指令

# SVO 转换提示词

你是 SVO 转换引擎。把输入的自然语言句子投影为 SVO 结构化表达式，**单行输出**，不加说明。

***

## 一、算子

| 算子        | 语义                            |
| --------- | ----------------------------- |
| `:`       | 左修饰右。`A:B` 表示 A 限定 B，整体是 B 类型 |
| `>`       | 能量/顺序从左向右流动；中段写原句谓词或连接词       |
| `&` / `\|` | 并列合取 / 二者择一                   |
| `( )`     | 把算式封装为原子域                     |

**优先级**：`( )` > `:` > `>` > `& |`；`:` 与 `>` 左结合。
合法符号仅 `:` `>` `&` `|` `( )`。中文标点不入算式。

***

## 二、核心原则

SVO 是自然语言的格式化投影：保留原句词项与修饰关系；按结合律回读应近似原句。**语义重心优先于字面语序**——投影扭曲语义时允许重排，回读检验为最终裁决。

***

## 三、硬约束（14 条）

**1. 命题关系不压成定语**
两命题逻辑连接（若/则、because）必须 `>` + 原句连接词。
✅ `(P) > 则 > (Q)`

**2. 专有名词、固定搭配、高频合成词不拆**
`深度强化学习`、`不能`、`无法`、`没有`、`可以`、`能够` 等词典词为原子。临时否定（非词典词）可拆：`不:适用`、`不:公开`。

**3. 歧义必封装**
✅ `显然 : (他 > 错了)`、`(P) > 则 > (Q)`

**4. 致使结构嵌入命题必封装**
**使/让/令/迫使/促使/导致/驱使/叫** 后紧跟带自身主语的命题，整体 `( )`。
✅ `论文 > 促使 > (Tishby > 认识到 > (...))`

**5. `:` 与"的"不共存**
`:` 即"的"/'s/of/の。已用 `:` 处不再保留"的"。

**6. 跨句连接词不作句内 `:`**
**然而/因此/从而/此外/总之/不过/但是/例如**——作句首独立 `>` 节点：`然而 > (本句主体)`；或跨句合并 `(前句) > 然而 > (后句)`。
立场副词（**显然/据说/显而易见**）表本句认知立场，可用 `:`：`显然 : (他 > 错了)`。区分：副词能读"X 地 Y"，连接词不行。

**7. 比较连词作 `>` 中段，不作 `:`**
**优于/胜过/不如/堪比/逊于/超过**、"比 A 更 B" 中的"比"——必须 `>` + 完整两端比较项，不得把比较项 NP 塞进 `:` 右侧。
✅ `A > 优于 > B`
❌ `A > (胜过:B)`（比较项 B 被吞为 V 属性，下游抽不出左右）

**例外**：副词修饰比较连词时使用 `(adv:V)` 形式（见约束 14）：✅ `(A:表现) > (均:优于) > (B:表现)`、✅ `X > (明显:胜过) > Y`。`(adv:V)` 中 V 仍是动词头，比较结构 `S > V > O` 完整可抽——与禁形 `(V:NP)` 本质不同。

**8. `&` 严格限于原句并列项；「并」需读语义而非字面**
仅用于原句本就用 "和/与/并/或/、" 连接者（替换回原词能成句）。模态/状语/介词短语/频次词修饰同一核心时**逐层 `:`**，不得 `&`。
❌ `(能 & (根据:X)) : 调整`
✅ `能 : ((根据:X) : 调整)`

「**并**」的双重语义判定（把"并"换"和"测试）：

| 类别 | 测试 | SVO |
|---|---|---|
| 真并列（动作平行共存） | "并"换"和"通顺 | `&` |
| 方式-动作流（前段是手段，后段是基于该手段的动作） | "并"换"和"读起来怪、丢失递进 | 扁平 `>` 链（同主语承前省略） |

✅ `... > 例如 > (通过 > 调整 > 想象:轨迹:数量 > 从 > 想象中 > 抽取 > 超越奖励:额外:信息)`（"并"承"接着"，不是平行）
✅ `测试 > 不同:行动 & 构建 > 复杂:想象树`（"并"作真并列）

**9. 拆行时代词实义化（仅当上下文有实义指称）**
多命题分行或 `&` 合取后某一支主语被代词承接、单看不知所指时，外指代词（**它/它们/其/该/这些/那些/此**）替换为前文出现过的实义词项。同主语扁平 `>` 链中的承前省略不属此。
✅ `(架构 > (被:称为) > 想象增强智能体) & (想象增强智能体 > 构建 > 计划)`

**边界**：单句独立、无前文实义指称时，**保留原句代词**——不得凭模型常识把"它们"补成"智能体"。投影应忠于原句词项（§1.0 自然语言投影原则）。
✅ `它们 > 能够:高效:使用 > 想象力 > ...`
❌ `这些:智能体 > 能够:高效:使用 > 想象力 > ...`（"智能体"是模型补的，原句没有）

**10. `:` 修饰内不嵌 `>` 命题或谓词动词**
`:` 左侧只能由 **词项 + `:` + `&`** 构成。两类禁出现：① 显式 `>` 命题；② 谓词性动词（具备/结合/测试/实现/应对/赋予/提出/包括/称为/基于…）。
"V Y 的 Z" → 提升为独立 `>` 命题；"通过 + 动作" → 展开为因果/目的链。
❌ `(通过:(赋予>想象力)) > 提升 > 效率`
✅ `S > 赋予 > 想象力 > 所以 > 提升 > 效率`
✅ `(S > 赋予 > 想象力) > 以便 > (S > 提升 > 效率)`

**手段-目的处理**：

| 情形              | 形式                                          |
| --------------- | ------------------------------------------- |
| 介词 + 名词短语（无动词）  | `(通过:X) : (...)` 或 `S > 通过 > X > V > O`     |
| 介词 + 动作，同主语     | 扁平因果链 `S > V1 > O1 > 所以 > V2 > O2`          |
| 介词 + 动作，不同主语/多步 | 拆两命题 `(S1 > V1 > O1) > 以便 > (S2 > V2 > O2)` |

**例外：领域固定 V+O 短语作合成原子**——当「V+O」在所属领域反复出现且语义稳定（如 RL 语境的"超越奖励"≈ beyond-reward），按约束 2 视为合成原子直接作 `:` 左修饰。三条同时满足才生效，否则回退提升：
1. 领域文献内反复出现且语义稳定；
2. 投影时不会被单独施加 `:` 或 `>`；
3. 拆为 `V > O` 反而引入原句没有的递进感。

✅ `抽取 > 超越奖励:额外:信息`（RL 领域固定属性短语）
❌ `S > 具备:能力`（临时动宾，应作 `S > 具备 > 能力`）

**11. 处置/被动/结果补语/体貌不单独拆为 `:` 节点**

* **处置**（把/将/给）：`(把:O)` 整体作宾域，或省略由 voice 门控。
* **被动**（被/遭/受/由）：`(被:V)` 前置修饰。
* **结果/趋向补语**（到/成/为/住/起来/下去）：与动词合并为原子（`推到`/`称为`/`整合为`）。
* **体貌助词**（了/过/着）：并入动词或省略。

**12. "地"与 `:` 不共存**
状语助词"地"由 `:` 承担。✅ `(高效:使用)`，❌ `(高效地:使用)`。

**13. 方位/时间后缀并入前词**
**中/里/上/下/前/后/内/外/间/之间/之中/之时/之后/之前/时**——整体作原子。
✅ `环境中`、`桌上`、`加入计划组件后`，❌ `环境:中`。

**14. 状语-动词绑定 `(scope:V)`**
副词修饰动词时，通过 `:` 左修饰绑到动词头上，整体作 `>` 中段：`S > (scope:V) > O`。这与汉语副词紧贴动词的语序同构。

| 类别 | 示例词 |
| --- | --- |
| 分布量化 | 均/都/全/各/皆/分别 |
| 频次 | 再次/反复/多次/一直 |
| 时体 | 已经/正在/曾经/即将 |
| 范围 | 一起/同时/单独/共同 |
| 程度 | 显著/明显/略微/大幅 |

✅ `(A:表现) > (均:优于) > (B:表现)`
✅ `团队 > (已经:发布) > 报告`
✅ `他们 > (共同:探讨) > 方法`

**判定**：`(X:Y)` 中 **Y 必须是动词头，X 是状语**。反过来 Y 是 NP 比较项就违规（约束 7：`(优于:B)` ❌）；X 是动词在左作修饰也违规（约束 10：`(具备:能力)` ❌）。

**冗余省略**：当外层 scope 已蕴含 ∀（`这两种X中` / `所有X中` / `每个X时`），分布副词冗余可省：✅ `(这两种:任务中) : ((A:表现) > 优于 > (B:表现))`（保留"均"作 `(均:优于)` 也合法，更贴字面）。

❌ `(均:(A:表现)) > 优于 > (B:表现)`（"均"非属性修饰）
❌ `(A:表现) > 均 > 优于 > (B:表现)`（"均"非传递阶段）

***

## 四、`>` 中段（语言无关）

原句真实出现的谓词、连接词、介词、模态短语均可作中段，**不翻译、不标准化**。

| 情形      | 示例                            |
| ------- | ----------------------------- |
| 单动词     | `他 > 吃 > 苹果`                  |
| 模态+动词   | `他 > 不得不 > 离开`                |
| 介词      | `模型 > 基于 > 想象`                |
| 模态+介词   | `算法 > 能在 > 规则完美环境中 > 利用 > 模型` |
| 致使      | `论文 > 促使 > (T > 认识到 > (...))` |
| 条件/让步   | `(P) > 则 > (Q)`、`(P) > 尽管 > (Q)` |
| 因果/目的   | `(P) > 所以 > (Q)`、`(P) > 以便 > (Q)` |
| 比较      | `A > 胜过 > B`                  |

### 方向：与能量/因果流一致（原因→结果，先→后）

反向连接词必须**正向化**：

| 反向（字面）          | 正向（使用）       |
| --------------- | ------------ |
| 由于 / 因为         | 所以 / 因此      |
| since / because | so / therefore |
| 鉴于              | 故            |

「由于 A，B」→ `(A) > 所以 > (B)`。正向词（所以/因此/从而/于是/故）保持原样；条件/让步/致使（则/尽管/导致/迫使）本身顺向。**不做跨语言映射后再反转**——写哪个连接词，按其能量流方向。

### `&` 优先级陷阱

`&|` 优先级最低。`A > B > C & D > E` 默认按 `(A > B > C) & (D > E)` 解析——即 `&` 把整条 `>` 链切成两段。当作者**实际想表达**「`A > B > C > X`，X 是一个 `&` 子结构」时，必须把 `&` 整体封装：

❌ `S > V > O & 例如 > (...)`（误读为 `(S > V > O) & (例如 > (...))`，主干被切成两段）
✅ `S > V > O > 例如 > (...)`（"例如"作 `>` 中段承接主干，`&` 留在 `(...)` 内）

**自检**：每写完一行 SVO，按优先级把 `&` 切位画一遍——如果 `&` 把本应成一体的 `>` 链切开，就是误读，加 `( )` 或改结构。

***

## 五、可读性

* **扁平优于嵌套**：`复杂不完美环境中:效率` 优于 `(((复杂&不完美):环境):中):效率`。
* **背景上提**：场景与动作链无时序关系 → `X : (...)`；场景是阶段 → `> 在 > X > 做 > Y`。
* **同主语扁平 `>` 链**：从而/因此/所以/于是/以便 后主语承前省略时，**不重复主语、不封装两端**。主语切换 / 两端含 `&` / 多段嵌套链 → 回到 `( )` 封装。
  ✅ `他 > 听完 > 报告 > 因此 > 决定 > 辞职`
  ✅ `(经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > (被迫:裁员))`
* **连续 `:` 按语义分组**：三层以上必封装。`其:发表的:两篇:论文` → `(其:发表):(两篇:相关论文)`。
* **光动词省略**：**进行/做/实施/作出/开展** 搭实义动词时省略。`进行:推理` → `推理`。
* **"是" 作 `>`**：`X > 是 > Y`。Y 含谓词动词时拆两命题。
* **比较连词裸作 `>`**：修饰词（均/更/还/也）上提到主语或作独立 `>` 阶段，不粘连词。
* **同实体 canonical 一致**：拆行/`&` 合取时同实体写法相同。
* **冗余 `( )` 去掉**：括号是结构标记不是装饰。优先级 `( )` > `:` > `>` > `&|`，`:` `>` 左结合——能用默认结合的就不加括号。**五条冗余**：
  1. 单原子裹括号——`(苹果) → 苹果`。
  2. `>` 链中的 `:` 子式——`(A:B) > C` → `A:B > C`。
  3. `&|` 中的 `>` 或 `:` 子式——`(A:B) & (C:D)` → `A:B & C:D`；`(A > B) & (C > D)` → `A > B & C > D`。
  4. 整条算式最外层括号——`((X:Y) > Z) → X:Y > Z`。
  5. 连续 `:` 链中无内部分簇时——`几个:(显著:特征)` → `几个:显著:特征`（左/右结合都回读为「几个显著的特征」）。

  **保留**：① `&|` 在 `>`/`:` 内部需收缩辖域（`... > (复杂 & 规则:不明确)`）；② `>` 命题作 `:` 右操作数（`显然:(他>错了)`）；③ 致使/认知动词嵌入命题；④ 连续 `:` 内有真实分簇（`(其:发表):(两篇:相关论文)`）；⑤ 消歧。
* **虚词、模态、否定保留**：该/还/并/其/就/也、必须/可以/可能、不/未/非。

***

## 六、判定流程

0. **句首扫描**：跨句连接词 → `>` 首节点。
1. **标原子词项**：专名、术语、合成词、固定搭配。
2. **识别主干**：主语、主动词、宾语/补语。
3. **组装**：修饰 `:`；驱动/因果/条件 `>`（反向连接词正向化）；并列 `&`/`|`。
4. **重排**：字面扭曲语义时允许（状语就近、并列动作 `&`、冗余承接词省略）。
5. **封装辖域**：
   * `>` 两端是完整命题 → `( )`，**同主语扁平链除外**
   * `:` 右操作数是命题 → `( )`
   * 致使结构嵌入命题 → `( )`
   * 连续 `:` 语义不符左结合 → `( )`
6. **自检（约束 1-14）**：
   - [ ] 命题关系未压成定语
   - [ ] 未拆专名/合成词
   - [ ] 致使嵌入命题已封装
   - [ ] "的"/"地" 未与 `:` 并存
   - [ ] 跨句连接词作 `>` 首节点
   - [ ] 比较连词带状语时用 `(adv:V)`，否则裸作 `>`
   - [ ] `&` 仅连原句并列项；「并」按"换'和'测试"判定真并列还是方式-动作流
   - [ ] **`&` 切位检查**：按优先级把 `&` 切一遍——若 `&` 把本应一体的 `>` 链切开，加 `( )` 或改结构
   - [ ] 外指代词在上下文有实义指称时实义化；单句独立无指称则保留原句代词
   - [ ] `:` 内不含 `>` 命题或谓词动词；副词修饰动词用 `(scope:V)`
   - [ ] 处置/被动/结果补语/体貌未单独 `:`
   - [ ] 方位/时间后缀并入前词
   - [ ] 分布量化副词（均/都）：scope 蕴含 ∀ 时可省，否则 `(scope:V)`
   - [ ] 无中文标点；无轻动词冗余；同实体 canonical 一致
   - [ ] **冗余括号已去**：单原子、`>` 链中 `:` 子式、`&|` 两侧 `:` / `>` 子式、最外层括号、连续 `:` 无分簇——按 §五五条逐一过
7. **回读检验**：按结合律读回应近似原句。

***

## 七、范例

| 输入                                         | 输出                                                                                       |
| ------------------------------------------ | ---------------------------------------------------------------------------------------- |
| 显然，他错了。                                    | `显然 : (他 > 错了)`                                                                          |
| 经济下行导致消费萎缩，因此企业被迫裁员。                       | `(经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > 被迫:裁员)`                                         |
| 尽管下雨，比赛仍然继续。                               | `(天 > 下雨) > 尽管 > (比赛 > 仍然:继续)`                                                           |
| 论文促使Tishby认识到理论可能涵盖广泛的过程。                  | `论文 > 促使 > (Tishby > 认识到 > (理论 > 可能:涵盖 > 广泛:过程))`                                        |
| 在AI辅助编程方面，Karpathy更偏向"协作式中间态"。             | `AI辅助编程方面 : (Karpathy > 更:偏向 > 协作式中间态)`                                                  |
| 现有框架不仅不适用，而且必须被立刻替换。                       | `现有:框架 > (不:适用 & 必须:被:立刻:替换)`                                                            |
| 为了方便起见，他直接跳过了验证。                           | `为了:方便起见 : (他 > 直接:跳过 > 验证)`                                                             |
| 为了提升安全性，他跳过了验证。                            | `(他 > 跳过 > 验证) > 以便 > (提升 > 安全性)`                                                        |
| 它们能够学习阐释其内部模拟过程，从而使用即使不完美的环境动态模型。          | `它们 > 能够:学习 > 阐释 > 其:内部模拟过程 > 从而 > 使用 > 即使:不完美:环境动态模型`                                  |
| 然而，真实世界复杂且规则不明确。                           | `然而 > (真实世界 > (复杂 & 规则:不明确))`                                                            |
| 由于每步想象都会增加计算成本，智能体会在初期想象多步结果。              | `(每步:想象 > 都会:增加 > 计算:成本) > 所以 > (智能体 > 初期:会 > 想象 > 多步结果)`                                |
| 已有算法如AlphaGo能在规则完美的环境中利用内部模型进行推理和计划。       | `如:AlphaGo:已有算法 > 能在 > 规则完美环境中 > 利用 > 内部模型 > 进行 > (推理 & 计划)`                            |
| DeepMind的最新博客介绍了其发表的两篇相关论文。                | `DeepMind:最新博客 > 介绍 > (其:发表):(两篇:相关论文)`                                                  |
| DeepMind通过赋予智能体想象力，提升了智能体在复杂环境中的效率。        | `复杂环境中 : (DeepMind > 赋予 > 智能体 > 想象力 > 所以 > 提升 > 智能体:效率)`                                 |
| 想象增强智能体的表现优于传统搜索方法。                        | `想象增强智能体:表现 > 优于 > 传统:搜索方法`                                                             |
| 该架构被称为想象增强智能体，它通过学习利用模型预测随机构建计划。           | `(该架构 > 被:称为 > 想象增强智能体) & (想象增强智能体 > 通过:(学习 > 利用 > 模型:预测) > 随机:构建 > 计划)`                 |
| 它们能够高效地使用想象力，例如通过调整想象轨迹的数量，并从想象中抽取超越奖励的额外信息。 | `它们 > 能够:高效:使用 > 想象力 > 例如 > (通过 > 调整 > 想象:轨迹:数量 > 从 > 想象中 > 抽取 > 超越奖励:额外:信息)` |

> 上一例同时演示了三个判定点：① 「并」读作方式-动作流走 `>` 链而非 `&`（约束 8）；② 单句独立无前文实义指称时保留"它们"（约束 9）；③ "超越奖励" 作 RL 领域固定 V+O 短语作合成原子（约束 10 例外）。

***

## 附：判定口诀

> 限定什么是什么 → `:`
> 能量/顺序流向 → `>`
> 原句本就并列 → `&` / `|`
> 整块要被外层作用 → `( )`
> **能读回原句的就是对的**

***

## 输出格式

每个输入**单行**输出 SVO 表达式，不加任何说明文字。

# SVO语义检索的系统化方案

# SVO 语义检索的系统化方案

> 本方案描述的是**检索架构**。SVO 算子定义、原子分类、拓扑模型、可读性建议等基础规范见 `SVO语义矢量算子手册.md`；大脑记忆四大机制的生物学原型见 `大脑记忆的核心机制.md`。本文不重复上述内容，只在关键处回指。
>
> **立场**：入库拆解、门控字段、边权分化、基础激活等全部是**工程需要**。表达层的算式只需满足手册的硬性约束（§1.1），工程层单向从合法算式中抽取所需字段。**任何为让检索工作而反向约束表达的规则，都不应出现在手册或指令文档中**。

---

## 零、方案概要

**一句话**：检索 = **概念向量入口** + **类型化图扩散** + **门控与基础激活调节** + **能量阈值输出**。

**四步对应大脑扩散激活**（`大脑记忆的核心机制.md` §四）：

| 生物机制 | 工程实现 |
| --- | --- |
| 入口激活（线索点亮节点） | 查询 → SVO 解析出概念簇 → 向量索引 top-K → 初始能量 |
| 沿边扩散（能量按边权流动） | 类型化有向图上并行 BFS，边权按 `:` / `>` / 连词类分化 |
| 激活汇聚叠加（多线索交汇） | 多源能量在公共邻居上求和；门控冲突乘惩罚；扇出归一化 |
| 阈值触发（累积高的浮现） | `threshold` 过滤 + `conclu / info / output` 三层输出 |

**为什么是扩散模型**（这是整份方案的设计根基）：

* **语义连续**交给向量（入口层）——分布式表征让"相似即相近"，对应脑的多通道编码。
* **结构离散**交给图（扩散层）——SVO 算子明确告诉工程层哪里是命题、哪里是修饰、哪里是逻辑连接，对应脑的海马体索引。
* **冲突信号用能量衰减而非硬过滤**——极性/量词/模态/连词的不匹配只是"乘以一个 < 1 的系数"，对应脑的神经调质调节。多入口交汇时，噪声互相抵消，信号互相增强；这是模糊检索的本质，不是 bug。

**SVO 二元本体（`SVO语义矢量算子手册.md` §1.2）在图上的同构**：

* **属性本体 `:`** → 概念簇内部结构 + 修饰边（scope → proposition）
* **力本体 `>`** → 动作命题（S→V→O）+ 逻辑命题（前件→连词→后件）+ 言说引用

属性和力在本体上是两类基本实体，在图上就是两类基本结构——**向量空间主要承载属性**（静态标签），**图结构主要承载力**（动态流向）。

---

## 一、相关性分层

检索相关性分六层，由图中不同机制承担。"每层一个专用索引"被扩散架构收敛为"一张图 + 一个向量索引 + 类型化边"：

| 层级 | 含义 | 承担机制 |
| --- | --- | --- |
| L1 概念相关 | 词项语义相似（"汽车"→"SUV"） | 概念向量索引（唯一入口） |
| L2 命题相关 | 主谓宾整体对齐 | 入口概念经**槽位边** 1 跳激活动作命题 |
| L3 作用域相关 | 话题/身份/范围/句子级副词匹配 | scope/sentence_mod 概念经**修饰边**激活命题 |
| L4 推导相关 | 条件/让步/因果链前后件匹配 | 扩散至逻辑命题 + 沿**逻辑前件边/后件边**双向展开 |
| L5 蕴含相关 | 否定/量词/模态区分 | 节点**门控属性**能量衰减（软约束） |
| L6 结构类比 | 骨架相同实体不同 | 扩散的自然副产物（同构命题图距近） |

**奥卡姆式收敛**：L2–L6 全部交给**同一张图的类型化扩散**；只有 L1 保留独立的向量索引。相比"倒排索引 + 结构哈希 + 前后件向量 + …"的多索引方案，扩散模型用"图拓扑本身承载结构语义"替代了多数专用索引。

---

## 二、入库：从 SVO 表达式到类型化图谱

### 2.1 三类原子节点（长期记忆的分布式单元）

SVO 表达式**不作为整体被索引**。解析后分解为三类节点，对应大脑皮层的三种模式：

| 节点 | SVO 形式 | 皮层类比 |
| --- | --- | --- |
| **概念簇**（concept） | `红:苹果`、`(前:负责人):Karpathy`、`(AI:方面)`、`显然` | 分布式表征的最小单元（类 V1–IT 的层次特征） |
| **动作命题**（action_proposition） | `S > V > O`（含空补语/引用宾语） | 一条"事件索引"——主谓宾是海马体打包的最小共激活单元 |
| **逻辑命题**（logical_proposition） | `前件 > 连词 > 后件` | 两条事件索引之间的"关系索引" |

**概念簇的 role**（按手册 §1.2.1 的属性本体分类，入库自动判别）：

* `entity`：专有名词、人物、机构、产品
* `concept`：普通概念、抽象名词、偏正复合词
* `scope`：话题/身份/背景/范围（典型形式 `(AI:方面)`、`(前:负责人)`）
* `sentence_mod`：句子级副词与情态标记（`显然`、`不幸:的是`、`祈使`、`疑问`）

role 用于**按角色分流召回**（§4.3），不改变图结构。

**致使/条件/让步结构**的嵌入命题（手册 §1.1-4）被显式封装为独立命题节点，`>` 连接词变为逻辑命题的 `connector`。例如：

```
论文 > 促使 > (Tishby > 认识到 > (理论 > (可能:涵盖) > (广泛:过程)))
```

入库为：

```
P1 = Tishby > 认识到 > P2             (action; object_ref=P2)
P2 = 理论 > (可能:涵盖) > (广泛:过程)   (action)
L1 = 论文 > 促使 > P1                 (logical; connector_class=致使; antecedent="论文", consequent=P1)
```

### 2.2 三类引用关系边（海马体索引的具象化）

原子之间通过 **PropRef 引用关系**相连，对应图中三类有权有向边：

| ref_type | 典型 SVO 形式 | 图中边类型 | 默认基础权重 |
| --- | --- | --- | --- |
| `slot` | `S > V > O` 的 S、O 槽位 | **槽位边** concept ⇄ action | 0.8 |
| `utterance` | `K > 表示 > (P)`、认知指向类 | **言说引用边** action → action | 0.5 |
| `modifier` | `显然 : (P)`、`(AI:方面) : (P)` | **修饰边** scope/sent_mod → proposition | 0.6 |
| `logical` | `(P1) > 则 > (P2)` | **逻辑前件边** / **逻辑后件边** | 按连词类分化（§3.2） |

**边的方向 = 能量流动方向**（与 `>` 本体定义一致）：条件 → 结论、原因 → 结果、前件 → 后件、说话者 → 言说内容。

### 2.3 节点门控属性（软过滤调节器 = 神经调质）

门控对应神经调质（多巴胺/去甲肾上腺素/乙酰胆碱）——**不改变拓扑，只调节能量传递**。

| 字段 | 取值 | 作用层 |
| --- | --- | --- |
| `polarity` | +1 / −1 | L5 否定 |
| `quantifier` | 所有 / 某 / 没有 / NULL | L5 量词 |
| `modality` | 必须 / 可能 / NULL | L5 模态 |
| `voice` | active / passive / NULL | L2 语态一致性 |
| `connector_class` | 条件 / 让步 / 因果 / 推论 / 目的 / 致使 / 认知 / 比较 / 言说（仅逻辑命题） | L4 连词类型 |

**门控冲突惩罚**：扩散时若源节点与目标节点的门控字段**均非 NULL 且不相等**，该条边传递的能量乘 `gate_penalty`（默认 0.1）。NULL 视为"未指定"，不触发惩罚。

**voice 字段的关键作用**：把"被"从概念簇的修饰中抽离。`A > 发布 > B`（active）与 `B > 被:发布`（passive）应识别为同一事件的两种语态，入库管线自动抽取 `被` → `voice=passive`，而不是让"被"成为概念簇的一部分污染嵌入空间。

### 2.4 边权重：按类型与连词类分化

连词权重**按类别**而非按具体词（条件类涵盖"则/否则/除非/当/只有"，作者写哪个都归同一类）：

| 连词类 | 默认权重 | 代表词 |
| --- | --- | --- |
| 因果类 | 0.80 | 导致、使得、造成、引起、以致 |
| 致使类 | 0.75 | 促使、迫使、让、令、使、催生 |
| 条件类 | 0.70 | 则、否则、除非、当、只有 |
| 推论类 | 0.70 | 因此、所以、从而、故而、进而 |
| 认知指向 | 0.60 | 表示、认为、知道、察觉、发现 |
| 言说引导 | 0.60 | 说、告知、声明、问、答 |
| 比较类 | 0.60 | 比、胜过、不如、堪比、逊于 |
| 目的类 | 0.50 | 以便、为了、旨在、力求 |
| **让步类** | **0.30** | 尽管、虽然、即使、纵然（反预期，能量传递弱） |

**归类由入库管线完成**：作者按原句写任意连接词，管线查表归入九类之一。新词加入对应类别，**不修改表达层规则**。

### 2.5 基础激活 B_i（ACT-R，使用频率与近因）

借鉴 ACT-R 的 Base-Level Activation（`大脑记忆的核心机制.md` §5.2），每个节点维护：

$$
B_i = \ln\!\left(\sum_{k=1}^{n} t_k^{-d}\right)
$$

其中 `t_k` 是节点第 k 次被命中时距今的秒数，`d` 默认 0.5。

* 频繁被命中的节点 → B_i 高 → 同样线索下更易被激活
* 久未命中 → t_k 大 → B_i 衰减 → "想不起来"

**最终节点能量**（混合扩散能量 a_i 与基础激活 B_i）：

```
E_i = a_i + α · softplus(B_i)        α = 0.1（默认）
```

α 不宜过大，否则热门节点永远被召回（priming 失控）。仅 `conclu` 排序用 E_i，扩散过程本身仍用 a_i，避免基础激活层层累乘。

### 2.6 源表达式索引（海马体快照）

每个原子节点都挂一个 `source_expr_id`，回指**完整的 SVO 算式 + 自然语言原句 + 文档位置**。这层对应海马体保留的"共激活指针"——多次命中时，大脑通过索引同步回放所有相关皮层。工程上用它做：

* `conclu` 聚合：一条源表达式的总能量 = 其内部激活原子的能量之和
* 可解释性：每一个返回单元都能指回原句与文档行号
* 重巩固（§6）：命中的源表达式整体 B 加一次

---

## 三、概念向量索引（唯一独立索引 = 分布式表征）

扩散起点。查询解析得到的每个概念簇，在此索引上取 top-K 作为图入口。

### 3.1 编码策略：两阶段

**阶段一（零训练，立即可用）**：加性组合

```
v(concept) = v(核心词) + Σ α^depth · v(修饰词_i)
α = 0.8
```

深度按 SVO 绑定的嵌套层级定义：最外层核心词 depth=0，每多一层 `:` 深度 +1。

**阶段二（微调，精度提升）**：BGE-base / Qwen3-Embedding 主干 + 按 role 训练 4 个 LoRA 适配器（entity/concept/scope/sentence_mod），不强行统一编码空间。

**训练对比对**（阶段二）：

* 同指正例：`K氏` / `Karpathy`
* 属性敏感正例：`(资深:工程师):李`、`(高级:工程师):李`
* 混淆负例：同修饰不同核心词（`红:苹果` vs `红:汽车`）
* 属性翻转负例：`(前:CEO)` vs `(现任:CEO)`
* role 混淆负例：`(AI:方面)` scope vs `AI` entity

### 3.2 按 role 分流召回

在一个大向量库中用 `role` metadata 过滤子集召回：

* 查询的实体词 → entity + concept 子库
* 查询的场景词 → scope 子库
* 查询的情态词 → sentence_mod 子库

避免 `(AI:方面)` 作为 scope 被当成 `AI` 实体召回（它们表达不同的本体角色）。

### 3.3 属性 / 力双子空间（可选，阶段二上线）

手册 §1.2 的二元本体建议**显式投影**到两个子空间（同一主干 + 两个投影头）：

* **属性子空间**：编码概念簇、scope、sentence_mod —— **在线扩散仅用此子空间**，因为入口是概念簇
* **力子空间**：编码动作命题、逻辑命题 —— 离线诊断、类比挖掘、未来端到端重排

两个子空间独立归一化，避免属性向量被力向量拉偏。

---

## 四、扩散激活检索流程

### 4.1 完整流程（与大脑四步严格对应）

```
查询（自然语言或 SVO 算式）
  │
  ① 入口激活 ─ SVO 解析 → 概念簇集合
  │   ├─ 解析成功：每个概念簇在向量索引取 top-K，初始 a_i = 余弦相似度
  │   └─ 解析失败：整句向量化作单入口，降级模式（保证服务可用）
  │
  ② 沿边扩散 ─ 并行 BFS，最多 max_hops 跳
  │   ├─ 每一跳按边权衰减
  │   ├─ 节点门控软过滤（冲突 × gate_penalty）
  │   ├─ 扇出归一化（fan effect 防 hub 吞能）
  │   └─ 全局距离衰减 global_decay
  │
  ③ 激活汇聚叠加 ─ 多源能量在公共邻居上求和
  │   └─ 噪声互相抵消、信号互相增强 = 模糊检索
  │
  ④ 阈值触发 ─ E_i = a_i + α·softplus(B_i) ≥ threshold
      ├─ conclu：按 source_expr 聚合能量，top-M 返回
      ├─ info：top-N 原子，带能量与命中路径
      └─ output：沿逻辑链前后展开至 logic_chain_max_depth
```

### 4.2 能量传播公式

每一跳：

```
a_j(t+1) = Σ_i [ a_i(t) · w_type(i→j) · gate(i,j) · fan_norm(i) ] · global_decay
```

其中：

* `w_type(i→j)`：边类型基础权重，逻辑边用连词类分化权重（§2.4）
* `gate(i,j) = 1.0` 若所有非 NULL 门控字段一致；冲突则 `gate_penalty`（默认 0.1）
* `fan_norm(i) = 1/√fan_out(i)` 当 `fan_out(i) > fan_trigger`，否则 1.0
* `global_decay = 0.7`

**可行性自检**（这些常数必须满足能量能跨 2 跳存活）：

```
初始能量 ≈ 0.9（cosine）
1 跳后 ≈ 0.9 × 0.8 × 1.0 × 0.7 ≈ 0.50   > threshold=0.05  ✓
2 跳后 ≈ 0.50 × 0.7 × 1.0 × 0.7 ≈ 0.25   > threshold       ✓
门控冲突 1 跳 ≈ 0.9 × 0.8 × 0.1 × 0.7 ≈ 0.05   勉强达阈   ✓（正符合"冲突项压到阈值附近"的设计）
让步类 1 跳 ≈ 0.9 × 0.3 × 1.0 × 0.7 ≈ 0.19     低但存活  ✓
```

**最终排序能量**（§2.5）：`E_i = a_i + 0.1 · softplus(B_i)`。

### 4.3 扇出归一化（fan effect）

ACT-R 的扇出效应：高出度节点（"AI"、"机器学习"、"深度学习"）的能量均摊到所有出边。

`fan_norm(i) = 1/√fan_out(i)` 仅当 `fan_out(i) > fan_trigger=20` 触发。低出度节点不惩罚，避免过早衰减冷门节点。

**监控指标**：top-20 最高出度节点在 `conclu` 占总能量比例应 < 30%，否则提高归一化强度或降低 `fan_trigger`。

### 4.4 门控冲突的精细化（阶段二）

默认所有冲突乘同一个 `gate_penalty=0.1`。阶段二按冲突类型分化：

| 冲突类型 | 默认惩罚 | 理由 |
| --- | --- | --- |
| polarity 翻转（肯定 vs 否定） | 0.05 | 最强信号，近乎反义 |
| quantifier 不一致（所有 vs 某 vs 没有） | 0.20 | 弱于极性但确实改变真值 |
| modality 不一致（必须 vs 可能） | 0.40 | 最弱，常表示近似信息 |
| voice 不一致（active vs passive） | 1.00 | 不扣分——同一事件的两种语态 |
| connector_class 不一致 | 0.25 | 已由边权分化承担一部分 |

### 4.5 默认参数（写入 `config.yaml`）

```yaml
activation:
  entry_top_k: 5              # 每入口概念召回候选数
  max_hops: 2                 # 最大扩散跳数
  global_decay: 0.7           # 每跳全局距离衰减
  threshold: 0.05             # 节点最低保留能量
  gate_penalty: 0.10          # 默认冲突惩罚（阶段一）
  fan_trigger: 20             # 出度超此值启用 fan 归一化
  fan_normalizer: sqrt        # sqrt / linear / none
  base_activation_alpha: 0.10 # 基础激活混合系数
  max_visited_nodes: 10000    # 防退化上限

edge_weight:
  slot: 0.80
  utterance: 0.50
  modifier: 0.60
  logical:
    因果: 0.80
    致使: 0.75
    条件: 0.70
    推论: 0.70
    认知: 0.60
    言说: 0.60
    比较: 0.60
    目的: 0.50
    让步: 0.30

output:
  conclu_top_m: 10            # 结论层表达式数
  info_top_n: 30              # 证据层原子数
  logic_chain_max_depth: 4    # 逻辑链展开深度
```

### 4.6 三层输出契约（向下兼容现有 `BuildContextFragments`）

```python
def SpreadingActivationSearch(query: str) -> tuple[str, str, str]:
    """返回 (conclu, info, output)"""
```

* **conclu（结论层）**：top-M 源表达式（SVO canonical + 自然语言回译），按聚合能量排序。聚合能量 = 该源表达式内部被激活原子的能量之和，带长度惩罚，去重。**LLM 的主要生成依据**。
* **info（证据层）**：top-N 激活原子，每条带 `(atom, energy, entry_sources, hop_path)`。用于调试、人工排错、LLM 定位命中点。
* **output（推导层）**：扫描激活到的逻辑命题，沿逻辑前件/后件边前后向各展开至 `logic_chain_max_depth` 跳——**即使链上节点未达阈值也补齐**，保证 LLM 看到完整因果/条件链。对应大脑扩散激活触发后整段情境快照被完整回放。

### 4.7 典型扩散场景

| 查询 | 扩散行为 | 结果 |
| --- | --- | --- |
| `(模型>开源) > 则 > (?)` | 入口激活 `模型`、`开源` → 槽位边到命题 `模型>开源` → 逻辑前件边 | `connector_class=条件` 的后件能量最高 |
| `所有:学生 > 通过 > 考试` | 候选 `某:学生 > 通过 > 考试` 因 quantifier 冲突能量 × 0.2 | 量词匹配命题排前 |
| `现有:框架 > 适用` | 候选 `现有:框架 > 不:适用` 因 polarity 冲突 × 0.05 | 反义命题降至阈值以下 |
| `(AI:方面) : (K > 偏向 > X)` | scope 入口经修饰边激活命题；其他域命题拿不到此路径能量 | 域外相关命题降权 |
| `A 促使 B 认识到 C` 类比 | 结构同构命题在图中拓扑接近，扩散自然汇聚 | L6 类比无需专门结构哈希 |
| `谁说 AGI 还要十年` | `AGI`、`十年之遥` 入口 → 动作命题 → utterance 反向边 | 言说者节点浮现 |

---

## 五、数据模型

```sql
-- 概念簇（唯一向量索引）
CREATE TABLE concept (
  id BIGSERIAL PRIMARY KEY,
  canonical TEXT NOT NULL,                   -- (前:负责人):Karpathy
  core_word TEXT NOT NULL,                   -- Karpathy
  modifiers TEXT[] NOT NULL,                 -- [前, 负责人]
  role VARCHAR(16) NOT NULL,                 -- entity|concept|scope|sentence_mod
  vector VECTOR(768),
  base_activation FLOAT NOT NULL DEFAULT 0,  -- B_i
  last_hits_ts TIMESTAMPTZ[]                 -- 最近 N 次命中时戳（环形缓冲，计算 B_i 用）
);
CREATE INDEX idx_concept_role ON concept(role);

-- 动作命题（图节点）
CREATE TABLE action_proposition (
  id BIGSERIAL PRIMARY KEY,
  subject_id BIGINT REFERENCES concept(id),
  verb TEXT NOT NULL,
  object_id BIGINT REFERENCES concept(id),   -- NULL 时宾语是 PropRef
  object_ref BIGINT,                         -- PropRef 指向另一命题
  polarity SMALLINT NOT NULL DEFAULT 1,      -- 门控
  modality VARCHAR(16),                      -- 门控
  quantifier VARCHAR(16),                    -- 门控
  voice VARCHAR(8) DEFAULT 'active',         -- 门控：active/passive
  base_activation FLOAT NOT NULL DEFAULT 0,
  last_hits_ts TIMESTAMPTZ[],
  source_expr_id BIGINT NOT NULL
);

-- 逻辑命题（图节点）
CREATE TABLE logical_proposition (
  id BIGSERIAL PRIMARY KEY,
  antecedent_id BIGINT NOT NULL REFERENCES action_proposition(id),
  connector_raw TEXT NOT NULL,               -- 原句连接词（则/尽管/由于/从而迫使/...）
  connector_class VARCHAR(16) NOT NULL,      -- 九类之一：条件/让步/因果/推论/目的/致使/认知/比较/言说
  consequent_id BIGINT NOT NULL REFERENCES action_proposition(id),
  base_activation FLOAT NOT NULL DEFAULT 0,
  last_hits_ts TIMESTAMPTZ[],
  source_expr_id BIGINT NOT NULL
);
CREATE INDEX idx_logical_class ON logical_proposition(connector_class);

-- 引用关系（图边表；双向索引即邻接结构）
CREATE TABLE prop_ref (
  id BIGSERIAL PRIMARY KEY,
  source_type VARCHAR(16) NOT NULL,          -- action|logical|concept
  source_id BIGINT NOT NULL,
  target_type VARCHAR(16) NOT NULL,          -- action|logical|concept
  target_id BIGINT NOT NULL,
  ref_type VARCHAR(16) NOT NULL,             -- slot|utterance|modifier|logical_ante|logical_cons
  weight_override FLOAT                      -- 阶段三学习权重，NULL 用类型默认
);
CREATE INDEX idx_ref_target ON prop_ref(target_type, target_id, ref_type);
CREATE INDEX idx_ref_source ON prop_ref(source_type, source_id, ref_type);

-- 源表达式（conclu 聚合回溯 = 海马体快照）
CREATE TABLE source_expression (
  id BIGSERIAL PRIMARY KEY,
  canonical TEXT NOT NULL,                   -- SVO canonical
  natural TEXT NOT NULL,                     -- 自然语言原句
  doc_id BIGINT,
  line_no INT,
  base_activation FLOAT NOT NULL DEFAULT 0,
  last_hits_ts TIMESTAMPTZ[]
);
```

**关键设计**：

* `concept` 向量独立存储在 Qdrant / Milvus，`concept.id` 与向量 metadata 互相映射。
* 内存图从 Postgres 的 `prop_ref` 双向索引加载为 `numpy / scipy` 稀疏邻接，百万节点 ≈ 500 MB。
* `base_activation` 与 `last_hits_ts` 是**可巩固字段**：命中时更新（§6）。
* `weight_override` 留给阶段三的端到端边权学习；阶段一、二为 NULL 不启用。

---

## 六、记忆巩固：离线重放与再巩固

这一节是本方案相对旧版的核心增量——把**大脑记忆"快照 → 回放 → 巩固"**（`大脑记忆的核心机制.md` §三、§5.4）显式搬入工程层。

### 6.1 海马体 ↔ 皮层：两层记忆组织

* **海马体层**（episodic，短期高塑性）：`source_expression` + 原子级 `base_activation`。每次入库/命中都快速修改。
* **皮层层**（semantic，长期稳定）：图结构（节点 + 边）+ 稳定化的边权 `weight_override`。只在离线巩固时修改。

类比 CLS（Complementary Learning Systems, `大脑记忆的核心机制.md` §5.4）：
短期系统承担单次事件的快速记录，长期系统从反复回放中提取统计规律。

### 6.2 在线命中即重巩固（reconsolidation）

**每次查询命中后**，对命中的源表达式与其内部原子执行：

```python
def on_hit(node, now):
    node.last_hits_ts.append(now)
    if len(node.last_hits_ts) > MAX_HITS_BUFFER:
        node.last_hits_ts.pop(0)
    node.base_activation = log_sum_power_decay(node.last_hits_ts, d=0.5)
```

效应：

* 频繁被查的节点 B 上升 → 下次更易被召回（priming）
* 久未命中的节点 B 自然衰减 → 不删除，只"想不起来"
* 每次命中都是一次学习，符合 `大脑记忆的核心机制.md` §3.2 的 reconsolidation

### 6.3 离线巩固任务（类慢波睡眠）

定时任务（每日/每周）执行：

1. **扫描高频共现边**：过去 N 天查询中，哪两个节点经常同时被高能量激活 → 记录为候选赫布强化对。
2. **赫布更新 `weight_override`**：
   ```
   Δw_ij = η · a_i · a_j · μ
   η = 0.01（学习率）
   μ ∈ [0.5, 2.0] 按情绪/显著性（见 §6.4）
   ```
3. **突触稳态归一化**：每个节点所有出边权重之和若超过 `homeostasis_cap`（默认 N × base_weight），整体等比缩放——防止某些节点所有出边无限增强。
4. **提取规律到皮层层**：如果 `A → B → C` 的路径在多次查询中都被高能量激活，可增加 `A → C` 的快捷边（学习到的规律性连接，阶段三才启用）。

**这对应脑的慢波睡眠回放**（`大脑记忆的核心机制.md` §3.3, §6.2）：
Experience replay（RL）、多 epoch 训练都是对应的工程机制。

### 6.4 情绪 / 显著性门控（可选）

不是所有命中都值得长期巩固。可引入 `salience` 信号作为神经调质 μ：

| 信号 | μ 乘数 | 说明 |
| --- | --- | --- |
| 用户显式反馈（点赞 / 采用） | 2.0 | 最强显著性 |
| LLM 生成时引用 | 1.5 | 下游任务确认有用 |
| 单次查询中能量异常高（> μ+2σ） | 1.2 | 明确命中 |
| 普通命中 | 1.0 | 基线 |
| 疑似噪声召回（能量极低） | 0.5 | 弱化，防止扩散噪声被固化 |

μ 对应多巴胺（预测奖赏）、去甲肾上腺素（惊讶）、乙酰胆碱（专注）的联合调节（`大脑记忆的核心机制.md` §2.3）。

---

## 七、核心挑战与对策

### 7.1 SVO 解析器稳定性（最大风险点）

扩散架构对解析器依赖**比旧架构更重**——解析结果直接决定入口概念集合。

**行动指引**：

1. **解析一致率基准**：500 句自然语言 × 10 个人工改写（同语义），统计结构指纹一致率。
2. **一致率门槛**：< 85% 不得投入生产。
3. **双轨降级**：解析成功 → 多入口；解析失败 → 整句向量化单入口（§4.1）。
4. **重点稳定"作用域 vs 条件"识别**：中文"在 X 的情况下"歧义最高，必须用上下文特征分类，不能靠正则。
5. **解析器版本化**：每次解析器升级重建全量 `concept` 向量与 `prop_ref`；灰度期保留两份索引。

### 7.2 编码器敏感度要求

向量层需区分：

* 角色翻转：`A > 杀 > B` vs `B > 杀 > A`（由命题节点区分，向量只需区分 `A`、`B`）
* 同义动作：`喜欢` vs `爱`（需向量区分；主要由人工对比对训练）
* 作用域翻转：`(战时)` vs `(和平)`（scope 子索引）

**注意**：极性翻转、连词翻转**主要由门控 + 边权分化承担**，向量辅助。不要试图让向量承担全部语义区分——那是旧架构的技术债。

### 7.3 参数校准（扩散架构特有）

* **`gate_penalty × global_decay` 需过 `threshold`**：0.1 × 0.7 × 1.0 = 0.07 勉强过 0.05。必须用标注集校准。
* **连词权重相对值**：条件 0.7 vs 让步 0.3 的比值直接决定反预期召回率。
* **扇出归一化触发点**：`fan_trigger=20` 为经验初值，需监控 Hub 能量占比。
* **基础激活混合系数 α**：α 过大 → 热门节点永远浮现（priming 失控）；α 过小 → 无 recency/frequency 效应。建议 [0.05, 0.2]。

**方法**：阶段一 100 条 `(query, expected)` 标注 + 脚本化 grid search；阶段二 500+ 对监督学习。

### 7.4 Hub 能量流失

中心节点（"AI"、"模型"、"深度学习"）因入度/出度极高，容易吞掉全图能量或把能量分散到无关节点。

**对策分层**：

1. **扇出归一化**（§4.3）：已在公式内置
2. **阶段二边权学习**：度越高的节点，出边基础权重按 `1/log(fan_out)` 再衰减
3. **阶段三 edge attention**：用 GNN 学习上下文相关的边权

---

## 八、工程落地路径

### 8.1 基础设施选型

| 组件 | 选型 | 理由 |
| --- | --- | --- |
| 概念向量索引 | Qdrant / Milvus / MindStore | 支持按 metadata（role）过滤 |
| 关系表 & 图边表 | Postgres | 外键一致，`prop_ref` 双向索引即邻接结构 |
| 内存图 | numpy / scipy sparse | 百万节点 ≈ 500 MB |
| 编码器 | BGE-base / Qwen3-Embedding + LoRA | 中文效果好、微调成本低；复用本仓库已有 checkpoint |
| 扩散算法 | 纯 Python 模块 | 无需新服务；热点可异步 C 扩展 |
| 离线巩固 | Airflow / 定时脚本 | 每日/每周跑 §6.3 |

**废弃基础设施**（相对旧四层索引）：

* Elasticsearch 倒排 → 槽位边扩散替代
* Redis 结构哈希 → 扩散自然实现 L6 类比
* pgvector 的前后件向量列 → 逻辑命题作为图节点，不再独立向量化

### 8.2 三阶段演进

**阶段一 MVP（2–4 周）**

* 跑通 SVO 解析 → 多入口 → 类型化边扩散 → 三层输出
* 概念编码用加性组合（零训练）
* 参数从 §4.5 初值起手调；100 条标注做 grid search 校准 `threshold` / `gate_penalty`
* 基础激活 B 字段保留但不在排序生效（α = 0）
* **目标**：验证扩散能量排序能替代旧架构的学习排序

**阶段二 精度提升（1–2 月）**

* 编码器微调：概念按 role 训练 4 个 LoRA
* 扇出归一化从 `sqrt` 改为按边类型 + 节点度数的联合学习权重
* 连词权重从手调改为小规模监督学习（500+ 对）
* 门控系数按冲突类型细化（§4.4）
* 基础激活上线：α = 0.1，MAX_HITS_BUFFER = 50
* 开启 reconsolidation（§6.2）
* **目标**：L3/L4 召回率显著提升，Hub 能量占比 < 30%

**阶段三 持续优化**

* 离线巩固任务上线（§6.3），启用 `weight_override` 与学习到的快捷边
* 全图 edge attention（类 GNN），端到端学习边权
* 属性 / 力双子空间投影上线（在线仍只用属性子空间）
* 显著性门控（§6.4）：用户反馈回流强化信号
* 多模态入口：图片 / 音频作为入口激活源
* 激活缓存：高频查询启动效应（priming）

### 8.3 评估指标

**SVO 固有指标**：
角色准确率 / 极性准确率 / 量词一致率 / 作用域覆盖率 / 嵌套深度保持率 / 连词一致率 / 逻辑链完整率。

**扩散架构新增指标**：

| 指标 | 定义 | 目标 |
| --- | --- | --- |
| 扩散覆盖率 | 目标命题在 2 跳内被激活到的比例 | > 90% |
| 能量信噪比 | top-K 结果能量均值 / 第 K+1 位能量 | > 2.0 |
| Hub 能量占比 | top-20 最高出度节点能量 / 总能量 | < 30% |
| 门控过滤准确率 | 冲突门控命题被压至阈值以下的比例 | > 85% |
| 基础激活效应 | priming 命中在同一会话内耗时下降比例 | 阶段二 > 20% |
| 巩固稳定性 | 离线巩固前后 top-10 变化率 | < 15%（避免震荡） |

---

## 九、操作快查表

| 检索需求 | 扩散实现 |
| --- | --- |
| 含特定实体的表达式 | 实体词为入口概念激活 |
| 含特定话题 / 场景 | scope 概念为入口 + 修饰边 1 跳 |
| 含句子级态度词（"显然"） | sentence_mod 概念为入口 |
| 角色精确匹配动作命题 | 入口 + 槽位边 1 跳 |
| 结构类比动作命题 | 多入口扩散自然实现 |
| 语义模糊相似动作命题 | 入口 top-K + 扩散 2 跳 |
| "如果 X 则…"推导 | X 入口 → 激活逻辑命题 → 后件边，`connector_class=条件` 权重最高 |
| "…导致 X"推导 | X 入口反向沿前件边，`connector_class=因果` 权重最高 |
| 特定连词推导链 | 连词类别权重直接分化，无需额外过滤 |
| 避免召回反义命题 | polarity 门控 × 0.05 衰减 |
| 避免召回不同连词 | 条件 0.7 vs 让步 0.3 的权重差异自动压制 |
| 追溯"谁说了这句话" | 沿 utterance 反向边扩散 |
| 展开"他说了什么" | 沿 utterance 正向边扩散 |
| 追溯推导前提 | 沿逻辑前件边反向 / output 层逻辑链补齐 |
| 展开推导后果 | 沿逻辑后件边正向扩散 |
| 热门词不要永远浮现 | 扇出归一化 + α 限制基础激活影响 |
| 频繁被查的信息优先 | 基础激活 B_i 上升 + α·softplus(B) 参与排序 |
| 区分同事件的主动/被动语态 | voice 门控不扣分，聚合在同一命题 |

---

## 十、参考

* SVO 算子规范与原子定义：`Agent/svo/SVO语义矢量算子手册.md`
* 生物学原型与设计灵感：`Agent/svo/大脑记忆的核心机制.md`
* SVO 表达层输入规范：`Agent/svo/SVO表达指令.md`
* 现有检索接口（待对接）：`Auto/gen_qdrant_dataset.py` 中的 `BuildContextFragments`

# SVO语义矢量算子手册

# SVO 语义矢量算子手册

***

## 一、核心哲学

### 1.0 基本原则：自然语言投影（最高约束）

**SVO 是自然语言的格式化投影。** 它不是独立于自然语言的形式化系统——而是给自然语言添加最少符号，把隐含结构显式化。语序、词项、修饰关系尽量保留原句；只在歧义、辖域、命题关系等必须显式化的地方引入符号。

**合法性检验的唯一标准**：算式按结合律回读为自然语言，应与原句语义接近。读不回去的算式就是错的，即使它通过了所有形式规则。

本手册 §二 至 §七 的所有具体规则都是"辅助工具"，不是"凌驾检验"。当具体规则与原句表达冲突时，除硬性约束之外，一律以原句为准。

### 1.1 硬性约束

违反任一条即为错解。其余全部"规则"都是**可读性建议**。

1. **命题间关系不可压成定语**——条件、让步、因果、推论、目的、致使若连接两个命题，必须用 `>` + 连接词，不可作属性。
2. **专有名词、行业术语、固定搭配、高频合成词不拆**——`深度强化学习`、`想象力编码器`、`不能`、`没有`、`无法`、`能够` 等是原子词项。
3. **歧义必须显式封装**——当 SVO 写法引入原句没有的歧义时，用 `( )` 明示辖域。逻辑流两端是完整命题时必须封装。
4. **致使结构的嵌入命题必须封装**——致使类连接词（使/让/令/迫使/促使/导致/驱使/叫）后若跟带自身主语的命题，该命题必须整体封装。
5. **`:` 与"的"不共存**——`:` 承担"的"（"'s"、"of"、"の"）的修饰语义，两者不并存。
6. **跨句连接词不作句内 `:`**——然而/因此/从而/此外/总之 等承接上下文的连接词不能用 `:` 绑本句。
7. **自然语言标点不是 SVO 分隔符**——中文逗号、分号、句号等不得出现在算式中。

### 1.2 二元语义物理学（建模工具）

在"自然语言投影"原则之下，SVO 提供一个**二元本体建模工具**：把语言结构归入两类基本实体——属性、力。这是思考工具，不是检验工具。

#### 1.2.1 属性 (Attribute)

世界中的每一个事物都是属性的叠加。"红苹果"不是"红"和"苹果"的外部关联，而是"红"这个属性坍缩到"苹果"上形成的新复合体。**话题、身份、范围、背景、句子级副词**本质上都是属性——它们限定一个核心（谓词、命题或实体）使其成为更特定的东西。

* "在AI方面"限定"偏向"这个动作 → 属性
* "作为前负责人"限定"Karpathy"这个实体 → 属性
* "显然"限定"他错了"这个命题 → 属性

属性通过**引力算子** **`:`** 坍缩到核心。

#### 1.2.2 力 (Force)

世界中的每一次**变化**都是能量从一点流向另一点。物理动作是力（施事→受事），逻辑推导也是力（前件→后件）。致使、条件、让步、因果、推论——它们在本体上没有差别，都是**一个命题释放能量驱动另一个命题成立**。

* "论文促使 Tishby 认识到 X" → 物理-心理动作力
* "如果 P 则 Q" → 条件力
* "尽管 P 但 Q" → 反预期力
* "A 导致 B" → 因果力

力通过**驱动算子** **`>`** 释放。力的方向由中段的**连接词项**（动词或逻辑连词）明示。

#### 1.2.3 并联 (Juxtaposition)

当多个项在原句里并列出现（共存或二者择一）时，通过 `&` / `|` 连接。判定：把 `&` 替换回"和/与/并"、`|` 替换回"或"，读起来与原句一致即可。形式异质但原句本就并列的也合法。

***

## 二、三算子定义

* **`:`** **绑定 (Bind)** —— 属性本体
  * 逻辑定义：左侧为右侧的限定。右侧可以是词项或封装域。
  * 涵盖语法成分：定语、状语、程度词、否定词、模态词、被动标记、量化词、**话题、身份、范围、背景、句子级副词**。

* **`>`** **驱动 (Vector)** —— 力本体
  * 逻辑定义：能量从左向右传递。中段为连接词项（动词/介词/逻辑连词）。
  * 涵盖语法成分：主谓宾、动宾、致使、**条件、让步、因果、推论**、认知指向、语气（疑问、祈使、感叹）、比较。

* **`&`** **/** **`|`** **合取 / 析取** —— 并联本体
  * 逻辑定义：并联共存 / 二者择一。
  * 涵盖语法成分：并列结构、选择关系。

**辅助符号**：`( )` 用于逻辑封装，将一组算式打包成一个原子化的**域 (Domain)**。域在外层算子眼中等价于一个词项。

**算式合法符号只有** `:` `>` `&` `|` `( )`。中文逗号、分号、句号等自然语言标点不是 SVO 算子。

***

## 三、运算规则

### 3.1 绑定的方向性

**公理 I**：`:` 一律左修饰右。`A : B` 意味着 A 是 B 的限定，结果具有 B 的本体类型。

* `红 : 苹果` 是一个苹果（不是一种红）。
* `不 : 适用` 是一种适用的否定态（不是一种不）。
* `显然 : (他 > 错了)` 是一个命题（"他错了"的显然态）。

### 3.2 绑定的递归性与层级性

**公理 II**：`:` 的左右操作数都可以是封装域。

```
(A : B) : C          左侧复合属性 → 限定 C
A : (B > C)          简单属性 → 限定一整个命题
(A : B) : (C > D)    复合属性 → 限定一整个命题
```

**链式绑定**从左到右逐级坍缩：

```
A : B : C  =  (A : B) : C
```

### 3.3 词项粒度与固定搭配

**(a) 固定搭配**：当两个词构成不可拆分的语义单元（如"十年之遥"、"与此同时"、"一如既往"），视为原子词项。

**(b) 高频合成词**：现代汉语中词典查得到的合成词（副词+能愿、否定+能愿、方位+词 等）按原子保留，不用 `:` 拆：

| 类别 | 原子保留 |
|---|---|
| 否定+能愿 | 不能 / 不会 / 不可 / 不应 / 不得 / 不必 |
| 存在否定 | 没有 / 无法 |
| 能愿 | 可以 / 能够 |

判定：**词典查得到 → 原子；临时组合 → 可拆**。`不:适用`、`不:公开`、`不:明确` 这些临时否定组合仍可拆。

**边界说明**：
- "不"+动词/形容词的临时组合仍用 `:`：`不:适用`、`不:公开`（不是词典词，而是构词法上临时否定）。
- 模态+动词复合中段仍可拆为 `>` 中段（§3.5）：`他 > 不得不 > 离开`——这里"不得不"整体作中段，不被 `:` 拆分。

**(c) 任务导向的粒度准则**：除固定搭配外，**专有名词、行业术语、偏正复合词**也应尽量保留为原子词项。判定问法：

> "在当前句子的推导链中，这个子词项是否会被单独施加 `:` 或 `>`？"

* **否** → 并入整体，作为单原子。
* **是** → 才拆分。

**示例**：

| 原子写法 ✅ | 过度拆解 ❌ |
| --------- | --------- |
| `深度强化学习` | `深度 : 强化 : 学习` |
| `学习效率` | `学习 : 效率` |
| `决策鲁棒性` | `决策 : 鲁棒性` |
| `想象树` | `想象 : 树` |
| `协作式中间态` | `协作式 : 中间态` |
| `不能 / 没有 / 无法` | `不:能 / 没:有 / 无:法` |
| `复杂不完美环境` | `((复杂 & 不完美) : 环境)`（除非子词需独立操作） |

**保留可拆分的反例**：`(前 : 负责人) : Karpathy` 中"前"被保留——因为上下文若对比"前任 vs 现任"，"前"需独立承载 `:`。粒度选择取决于**当前句子的推导需求**。

**领域固定 V+O 短语作合成原子**：当「V+O」在所属领域反复出现且语义稳定到读者一眼识别为固定概念，按合成原子处理比按 §3.7-反例 / §1.1 约束 10 强行提升为 `>` 命题更忠实——即便 V 在通用语境是谓词动词。判定（高门槛，宁严勿松）：

1. 该短语在所属领域文献内**反复出现且语义稳定**（如 RL 语境的"超越奖励"≈ beyond-reward、病理学的"携带病毒"、机器学习的"数据驱动"）；
2. 投影时不会被单独施加 `:` 或 `>`（即 V 与 O 不会被独立修饰）；
3. 拆为 `V > O` 反而引入原句没有的递进感。

三条同时满足才生效，否则回退提升处理。

```
✅  抽取 > 超越奖励:额外:信息          （RL 领域固定属性短语）
✅  采集 > 携带病毒:样本                （病理学固定属性短语）
❌  S > 具备:能力                       （"具备能力"是临时动宾，不是术语，应作 S > 具备 > 能力）
```

> **心法**：SVO 用来做逻辑推导，不是底层分词。原子粒度应大到足以让结构化的算式承载语义重心，而不是把所有词都剥成单字。

### 3.4 驱动的双重承载

`>` 统一承载两类能量流向，二者在本体上同构：

**(a) 动作流**：施事 → 动作 → 受事

```
论文 > 促使 > (Tishby > 认识到 > (理论 > 涵盖 > 过程))
```

**(b) 逻辑流**：前件命题 → 逻辑连词 → 后件命题

```
(P1) > 则 > (P2)
(P1) > 尽管 > (P2)
(P1) > 导致 > (P2)
```

**识别原则**：`>` 两端是**词项**还是**封装域**决定动作流/逻辑流——两端都是完整命题时即为逻辑流；否则即为动作流。

### 3.5 `>` 中段（语言无关）

**SVO 代数与语言无关**。算子、优先级、结合律、封装规则全部是形式化定义，不依赖具体语言。

**原则**：**原句用什么连接词，SVO 就用什么**。中文写中文、英文写英文、日文写日文，照原词填入 `>` 中段即可。

#### 合法中段形态

| 情形 | 示例 |
| --- | --- |
| 单动词 | `他 > 吃 > 苹果` |
| 模态+动词 | `他 > 不得不 > 离开` |
| 介词 | `模型 > 基于 > 想象` |
| 模态+介词 | `算法 > 能在 > 规则完美环境中 > 利用 > 模型` |
| 复合连接 | `测试 > 设定 > 限制 > 从而迫使 > (...)` |

介词、模态+介词、复合连接短语（"从而迫使"、"以至于"、"so as to"、"in order that"）均可整体作中段，不必拆成两个 `>`。

#### 中文常见词举例

| 大类 | 常见词 | 示例 |
| --- | --- | --- |
| 条件 | 则、否则、除非、只有、当 | `(P) > 则 > (Q)` |
| 让步 | 尽管、虽然、即使、纵然 | `(P) > 尽管 > (Q)` |
| 因果（正向） | 所以、因此、导致、使得、造成、引起 | `(A) > 所以 > (B)` |
| 推论 | 因此、所以、从而、故而、进而 | `(P) > 因此 > (Q)` |
| 目的 | 以便、为了、旨在、力求 | `(P) > 以便 > (Q)` |
| 致使 | 促使、迫使、让、令、使、催生 | `A > 促使 > (B > V > (...))` |
| 认知指向 | 表示、认为、知道、察觉、发现、意识到、主张 | `K > 表示 > (...)` |
| 比较 | 比、胜过、不如、堪比、逊于 | `A > 胜过 > B` |
| 言说引导 | 说、问、答、告知、声明 | `K > 告知 > T > (...)` |

#### 方向要求

`>` 的方向必须与**能量/因果流**一致（原因 → 结果、条件 → 结论、先 → 后）。

当原句连接词字面方向与能量流相反时，**替换为对应的正向连接词**，不受字面语序束缚：

| 反向（字面） | 正向（SVO 使用） | 示例 |
| --- | --- | --- |
| 由于 / 因为 | 所以 / 因此 | "由于 A，B" → `(A) > 所以 > (B)` |
| since / because | so / therefore | "B because A" → `(A) > so > (B)` |
| 鉴于 | 故 | "鉴于 A，B" → `(A) > 故 > (B)` |

正向连接词（所以 / 因此 / 从而 / 于是 / 故 / therefore）保持原样；条件/让步/致使类（则/尽管/导致/迫使）本身就顺向，无需替换。

**不要把一种语言的连接词映射成另一种语言的等价物再反转方向**——写哪个连接词，就按对应的能量流方向。

#### 状语-动词绑定 `(scope:V)`

副词修饰动词时，通过 `:` 左修饰绑到动词头上，整体作 `>` 中段：

```
S > (scope:V) > O
```

`scope` 限定 V 的**施行方式 / 范围 / 频次 / 时体**，不是 V 的属性，也不是与 V 并列的能量阶段。这与汉语"副词紧贴动词"的自然语序同构。

**适用类别**：

| 类别 | 示例词 | 示例 |
| --- | --- | --- |
| 分布量化 | 均、都、全、各、皆、分别 | `(A:表现) > (均:优于) > (B:表现)` |
| 频次 | 再次、反复、多次、几次、一直 | `S > (反复:验证) > 假设` |
| 时体 | 已经、正在、曾经、即将、终于 | `团队 > (已经:发布) > 报告` |
| 范围 | 一起、同时、单独、共同 | `他们 > (共同:探讨) > 方法` |
| 程度 | 显著、明显、略微、大幅、彻底 | `X > (显著:提升) > 效率` |
| 立场 | 坚决、果断、勉强、断然 | `他 > (果断:拒绝) > 提议` |

**判定规则**：

`(X:Y)` 中 **Y 必须是动词头，X 是状语副词**。反过来则违规：

| 形式 | 判定 | 原因 |
| --- | --- | --- |
| `(均:优于)` | ✅ | 左副词 + 右动词头，比较结构 `S > V > O` 完整 |
| `(优于:B)` | ❌ | 比较项 NP 被吞成 V 属性（违反 §1.1 / 约束 7） |
| `(具备:能力)` | ❌ | 动词在 `:` 左侧作修饰（违反 §1.1 / 约束 10），应提升为 `S > 具备 > 能力` |
| `(显著:提升)` | ✅ 或原子 | 程度副词 + 动词；若搭配高频固化（§3.3）可直接作原子 `显著提升` |

**多状语堆叠**：逐层 `:`（左结合自然展开）：

```
S > (再:(一次:提交)) > 申请          （副词层叠：再 → 一次 → 提交）
S > ((仔细 & 反复):检查) > 数据       （仅当原句"仔细并反复"本就并列时用 &）
```

**与跨句连接词 / 句子级副词的区分**：

- 句子级副词（显然 / 据说 / 不幸的是）作用于**整个命题**，绑命题封装域：`显然 : (他 > 错了)`（§4.12）。
- 状语副词作用于**单个动词**，绑动词头：`(显然:错了)` 不合法——"显然"是认知立场，不是动作方式修饰。
- 跨句连接词（然而 / 因此）作 `>` 首节点（§3.10）。

### 3.6 封装域 `( )` 的作用

封装域将一组算式打包成一个原子单位。对外层算子而言，封装域等价于一个词项。

**必须封装的情形**：

1. `>` 的逻辑流两端出现完整命题时，该命题必须封装（**除同主语扁平链**，见 §3.9.1）。
2. `:` 的右操作数是完整命题时，该命题必须封装。
3. **致使类连接词**（使/让/令/迫使/促使/导致/驱使/叫）后跟带自身主语的命题时，该命题整体封装：
   ```
   ✅  论文 > 促使 > (Tishby > 认识到 > (...))
   ✅  测试 > 迫使 > (智能体 > (先:想象) > 结果)
   ```
4. **连续 `:` 语义分组与左结合不符**时，必须按语义分组封装：
   ```
   ❌  其:发表的:两篇:相关论文    （左结合解析不符语义）
   ✅  (其:发表):(两篇:相关论文)
   ```
   三层以上的连续 `:` 几乎总需封装。
5. 任何时候需要覆盖默认优先级时。

**禁止封装的情形**：

1. 单一词项（`(苹果)` 与 `苹果` 等价，但多余）。
2. 破坏固定搭配（不能把"十年之遥"写成 `(十年 : 之遥)`）。
3. **默认优先级与关联律已能正确结合的子式**——见 §3.7「冗余括号识别」。括号只在改变默认结合、显式分组消歧、或满足上面五条「必须封装」时使用。

### 3.7 运算优先级与结合性

从高到低：

```
( )  →  :  →  >  →  & |
```

即括号最紧，绑定次之，驱动更松，合取/析取最松。

```
A : B > C & D > E
   解析为：
((A : B) > C) & (D > E)
```

**`:` 左结合**：`A : B : C = (A : B) : C`。
**`>` 左结合**：`A > B > C > D = ((A > B) > C) > D`。

后者与主谓宾的自然语序一致：A 先与 B 发生作用，其结果再与 C 发生作用。

#### 冗余括号识别

**总原则**：括号是结构标记不是装饰。凡按已定义的优先级与关联律即可正确结合的子式，不加 `( )`。

**五条冗余条款**：

1. **单原子裹括号**——`(苹果) → 苹果`，`(复杂不完美环境中) : (...) → 复杂不完美环境中 : (...)`。

2. **`>` 链中的 `:` 子式**——`:` 紧于 `>`，自然结合：
   ```
   ❌  (DeepMind:最新博客) > 介绍 > ...
   ✅  DeepMind:最新博客 > 介绍 > ...
   ```

3. **`&|` 中的 `>` 或 `:` 子式**——`&|` 最低，自然结合：
   ```
   ❌  (智能体:学习效率) & (智能体:决策鲁棒性)
   ✅  智能体:学习效率 & 智能体:决策鲁棒性

   ❌  (A > 提出 > X) & (B > 验证 > Y)
   ✅  A > 提出 > X & B > 验证 > Y
   ```

4. **整条算式最外层括号**——不被任何外层算子作用：
   ```
   ❌  ((不可预知:问题) > 频发)
   ✅  不可预知:问题 > 频发
   ```

5. **连续 `:` 链中关联律无差异**——所有修饰均独立绑同一中心、内部不形成分簇时，左/右结合都得回原句，内层括号可去：
   ```
   ❌  几个:(显著:特征)
   ✅  几个:显著:特征      （= (几个:显著):特征，回读仍为"几个显著的特征"）

   ❌  这一:(核心概念):想象力
   ✅  这一:核心概念:想象力
   ```

   判定：所有修饰是否同向限定同一头词、且无子簇？是则可去；否则保留括号显式分组（如 `(其:发表):(两篇:相关论文)` 必须保留——内部有真实分簇）。

**保留括号的反例**——必需的情形不在「冗余」之列，见 §3.6「必须封装的情形」与下面的快速对照：

| 情形 | 括号必需 | 原因 |
|---|---|---|
| `... > (复杂 & 规则:不明确)` | ✅ 必需 | `&` 在 `>` 操作数内，需收缩辖域 |
| `显然 : (他 > 错了)` | ✅ 必需 | `>` 命题作 `:` 右操作数 |
| `论文 > 促使 > (T > 认识到 > (...))` | ✅ 必需 | 致使嵌入命题 |
| `(其:发表):(两篇:相关论文)` | ✅ 必需 | 连续 `:` 内有真实分簇 |

**判定口诀**：能去就去，去不掉再留。拿不准时把括号去掉重读一遍，能回读原句就是冗余。

#### `&` 优先级陷阱（与冗余括号成对出现）

`&|` 优先级最低这把双刃剑——它**让** `(A:B) & (C:D)` 自然解析为两个 `:` 子式的合取（冗余条款 3 的依据），同时也**让** `A > B > C & D > E` 自然把整条 `>` 链切成 `(A > B > C) & (D > E)`。冗余括号识别的反面是：当作者**实际想表达**「`A > B > C > X`，X 是 `&` 子结构」时，必须把 `&` 整体封装：

```
❌  S > V > O & 例如 > (...)         （误读为 (S > V > O) & (例如 > (...))，主干被切成两段）
✅  S > V > O > 例如 > (...)          （"例如"作 `>` 中段承接主干，`&` 留在 `(...)` 内）
```

**自检**：每写完一行，按优先级把 `&` 切位画一遍——如果 `&` 把本应成一体的 `>` 链切开，就是误读，加 `( )` 或改结构。

### 3.8 歧义消解

原句本身不歧义时可省略封装；原句有歧义或 SVO 写法会引入歧义时必须封装。

**约定一**：当同一个修饰语可能限定动词或整个命题时，**封装明示辖域**。

```
❌  显然 : 他 > 错了
✅  显然 : (他 > 错了)           （限定整个命题）
✅  他 > (显然 : 错了)           （限定"错了"这个谓词）
```

**约定二**：当话题可能限定一个动作或一整段话语时，封装要明确。

```
(AI:方面) : (Karpathy > 偏向 > X)   （整段话都在 AI 方面）
Karpathy > ((AI:方面) : 偏向) > X    （只有"偏向"这个动作在 AI 方面）
```

**约定三**：当 `>` 中段是逻辑连词时，两端必须是封装的完整命题。裸词项不能出现在逻辑流 `>` 的两端：

```
❌  P > 则 > Q
✅  (P) > 则 > (Q)
✅  (P) > if > (Q)
```

### 3.9 可读性建议

以下是**可读性与下游效率建议**，最终由作者按原句判断。§1.0 的"能回读原句"是唯一凌驾检验。

#### 3.9.1 同主语扁平 `>` 链

当**句内**命题间连接词（从而/因此/所以/故而/以便/于是 等）前后主语**承前省略**（即同一主语）时，优先**扁平链**，不重复主语也不封装两端：

```
✅  它们 > (能够:学习) > 阐释 > (其:内部模拟过程) > 从而 > 使用 > ((即使:不完美):环境动态模型)
✅  他 > 听完 > 报告 > 因此 > 决定 > 辞职
❌  (它们 > 学习 > X) > 从而 > (它们 > 使用 > Y)
```

**回退到封装**的条件：

| 情形 | 示例 |
|---|---|
| 主语切换 | `(经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > (被迫:裁员))` |
| 两端含 `&` / `|` 并列 | `(A & B) > 因此 > (C & D)` |
| 两端自身是多段 `>` 链 | `(P1 > P2 > P3) > 因此 > (Q1 > Q2 > Q3)` |
| 致使类连接词（主语切换） | `A > 迫使 > (B > V > C)` |

承前省略是中文正常语法现象，不是歧义；强行回填主语相当于改写原句。扁平形式下 `>` 已保证顺序流动，连接词作中段节点时两侧命题已被 `>` 自然隔开，无需括号。

#### 3.9.2 词汇组块坍缩 (Lexical Chunking)

专有名词、行业术语、偏正复合词、高频合成词作为原子词项，能合则合。判定见 §3.3。

**反例 vs 正例**：
* `深度强化学习` ✅ ，而非 `深度 : 强化 : 学习` ❌
* `学习效率 & 决策鲁棒性` ✅ ，而非 `(学习 : 效率) & (决策 : 鲁棒性)` ❌
* `基于想象的计划方法` ✅ ，而非 `(基于 : 想象) : 计划 : 方法` ❌
* `不能` ✅ ，而非 `不 : 能` ❌

#### 3.9.3 扁平化多重属性 (Flattening Modifiers)

当同一核心被多个修饰同时限定时，先用 `&` 把所有修饰合取，再做**一次** `:` 绑定。避免生成 `((A:B):C):D` 四层以上的嵌套。

**方位词归并**：方位词（中、里、上、下、前、后、内、外、间）直接并入名词，不单独绑定——`环境中`、`桌上`，不写 `环境 : 中`。

**反例**：

```
((((复杂 & 不完美) : 环境) : 中) : ((学习 : 效率) & (决策 : 鲁棒性)))
```

**正例（中等粒度）**：

```
((复杂 & 不完美) : 环境中) : (学习效率 & 决策鲁棒性)
```

**正例（更粗粒度）**：

```
复杂不完美环境中 : (学习效率 & 决策鲁棒性)
```

#### 3.9.4 宏辖域优先 (Macro-Scoping)

范围、背景、话题修饰默认上提到整命题层绑定，而非深埋在受事子树里。除非原意明确只限定某个动词。

**反例**：

```
DeepMind > 提升 > (智能体 : ((((复杂 & 不完美) : 环境) : 中) : ((学习 : 效率) & (决策 : 鲁棒性))))
```

**正例**：

```
(复杂不完美环境) : (DeepMind > 提升 > 智能体:(学习效率 & 决策鲁棒性))
```

**但**：当场景本身是**操作流的一个阶段**（"先到 X 再做 Y"）时，保留在线性 `>` 链比上提更忠实语义：

```
✅  ((如:AlphaGo):已有算法) > 能在 > 规则完美环境中 > 利用 > 内部模型 > 进行 > (推理 & 计划)
```

三种场景处理方式：

| 情形 | 处理 |
| --- | --- |
| X 是静态场景框定，与 Y 无时序关系 | 背景上提 `X : (...Y...)` |
| X 是操作流的一个阶段 | 保留线性 `> 能在 > X > V > Y` |
| X 与模态/其他状语是同层修饰 | `&` 并列作状语丛：`(能 & 根据:环境差异):调整` |

选择依据是**原句的语义重心**：场景强调 → 上提；操作时序 → 线性；同层修饰 → 并列。

**注意**：不要用 `&` 把本可线性展开的时序/因果关系压平为状语丛——这会丢失原句的操作顺序，也更罗嗦。`&` 仅用于原句中本就并列的项。

#### 3.9.5 虚词与代词

**原则**：原句里的**虚词（该、还、并、其、就、也）默认保留**——按自然语言投影原则，原句词项不擅自删除。

只在以下情形可省略：
1. 作者**确信**删除不影响语义。
2. 需要避免明显冗余（如原句重复主语）。

**模态词（必须、可以、应该、可能、能、能够）和否定词（不、未、非）始终保留**——它们承载真值判断。

**"的" 由 `:` 承担，不并存**：`:` 的语义定义是"左修饰右"，与中文"的"、英文"'s"/"of"、日文"の" 承担同一修饰关系。已用 `:` 处不再保留"的"。

```
❌  基于想象的:计划方法       ❌  DeepMind的:最新博客
✅  (基于:想象):计划方法      ✅  DeepMind:最新博客
```

判定口诀：
> "的"作为结构助词连接定语和中心语时，其功能由 `:` 承担；两者不并存。
> "的"作为名词性成分（如"我的"中指代所有物）时，通常并入前词或作为原子保留。

#### 3.9.6 语义重排

当字面投影导致结构扭曲、辖域不清或语义重心被掩盖时，允许重排：

| 情形 | 重排方式 | 示例 |
| --- | --- | --- |
| 承接词与算子语义重复 | 省略（据此/由此/从此-已被连接词/`&` 承担） | "…并据此行动" → `… & 行动` |
| 字面语序扭曲修饰关系 | 重排为 `A:B` 形式使限定关系显式 | "会在初期" → `(初期:会)` |
| 并列动作被状语粘连 | 用 `&` 切分，状语上提或就近绑定 | "想象X并做Y" → `(想象 > X) & (做 > Y)` |

**不可重排**：原句语序本就表达语义（"先…后…"）、修饰项有多种解读时、专有术语/固定搭配。

**字面忠实让步于语义清晰**：§二"合法性"要求"能读回原句语义"，字面忠实与语义清晰冲突时，以回读检验通过为准。

#### 3.9.7 多命题逗号分句

自然语言标点不是 SVO 分隔符。含多命题的长句按语义关系处理：

| 语义关系 | SVO 处理 |
|---|---|
| 并列/延续（"A，并 B"、"A，它们 B"） | `&` 合取，或拆成独立多行 |
| 方式-动作流（"通过 A，并 B"——A 是手段，B 是基于该手段的动作） | 扁平 `>` 链（同主语承前省略），不用 `&` |
| 因果/推论（"A，因此 B"） | `(A) > 因此 > (B)` |
| 条件（"A，则 B"） | `(A) > 则 > (B)` |
| 让步（"A，但 B"） | `(A) > 但 > (B)` |

**「并」的双重语义**——「并」字面是并列连词，但 SVO 选 `&` 还是 `>` 由两侧的语义关系决定，不由词本身决定：

| 类别 | 判定测试 | SVO |
|---|---|---|
| 真并列（动作平行共存，主语相同，删"并"句意不变） | 把"并"换成"和" / "及" 重读——通顺 | `&` |
| 方式-动作流（前段是方式/手段，后段是基于该方式的动作；"并"承"接着/进而"语义） | 把"并"换成"和"——读起来怪 / 丢失递进感 | `>` |

**例**：

```
原句：例如通过调整想象轨迹的数量，并从想象中抽取超越奖励的额外信息。

"并"换"和"测试："通过调整数量 和 从想象中抽取信息" — 怪
更准确读法："通过调整数量 → 从想象中抽取信息" — 方式接动作

✅  ... > 例如 > (通过 > 调整 > 想象:轨迹:数量 > 从 > 想象中 > 抽取 > 超越奖励:额外:信息)
❌  ... > 例如 > (通过 > 调整 > X & 从 > 想象中 > 抽取 > Y)
```

```
原句：他买了苹果并买了橘子。

"并"换"和"测试："买了苹果 和 买了橘子" — 通顺
✅  他 > (买 > 苹果 & 买 > 橘子)
```

当一个自然语言句子包含两个或多个**可独立成立的命题**，且用逗号 + 代词回指（"它们"、"这"、"该 X"）串联时，**允许拆解为多行 SVO**。拆行时将代词显式化（"它们" → "该两篇论文"、"它" → 具名指称）——前提是上下文已提供实义指称；若是单句独立、无前文可回指，保留原句代词（详见 §3.9.5「虚词与代词」与 §3.9.1「同主语扁平 `>` 链」）。

### 3.10 跨句语篇连接词

跨句连接词（**然而 / 因此 / 从而 / 此外 / 总之 / 不过 / 但是 / 例如** …）表达**本句与前一句**的逻辑关系。它们**不是句内副词**，不可用 `:` 绑本句——回读"然而地真实世界…"不通。

与句内立场副词的区分：

| 词类 | 代表词 | 作用 | 处理 |
| --- | --- | --- | --- |
| 句内立场副词 | 显然 / 显而易见 / 据说 | 表达说话者对**本句**命题的认知或模态立场 | 可 `:` 绑本句：`显然 : (P)` |
| 跨句语篇连接词 | 然而 / 因此 / 从而 / 此外 / 总之 | 表达**本句与前一句**的逻辑关系 | 不可 `:` 绑；见下三方案 |

**回读测试**：副词可读成"X地Y"（显然地错了 ✓），连接词不行（然而地真实世界 ✗）。

#### 三种处理方案

**方案 1：跨句合并**（若流水线允许）

相邻两句构成明显逻辑关系时，合并为一个 SVO，连接词作 `>` 中段：

```
(前句命题) > 然而 > (后句命题)
(前句命题) > 因此 > (后句命题)
```

**方案 2：分行保留，连接词作句首 `>` 节点**（若必须一行一句）

```
然而 > ((真实世界 > (复杂 & (规则:不明确))) & ((不可预知:问题) > 频发)) > 使得 > ((此类环境中:想象) > 变得 > (耗时 & 耗力))
```

读作"承接前文的**然而**，然后…"。保留了语篇信号但不把连接词误绑为句内修饰。

**方案 3：丢弃**（若下游不关心语篇衔接）

```
((真实世界 > (复杂 & (规则:不明确))) & ((不可预知:问题) > 频发)) > 使得 > (...)
```

#### 常见跨句连接词

| 关系 | 代表词 | 方案 2 写法 |
| --- | --- | --- |
| 转折 | 然而 / 不过 / 但是 / 可是 | `然而 > (本句)` |
| 推论 | 因此 / 所以 / 故而 | `因此 > (本句)` |
| 递进 | 从而 / 进而 / 并且 | `从而 > (本句)` |
| 补充 | 此外 / 另外 / 而且 | `此外 > (本句)` |
| 总括 | 总之 / 综上 / 简言之 | `总之 > (本句)` |
| 举例 | 例如 / 比如 | `例如 > (本句)` |

***

## 四、标准拓扑模型

### 4.1 基本动作模型

**拓扑**：`施事 > 动作 > 受事`

```
他 > 吃 > 苹果
论文 > 引用 > (前人 : 工作)
```

### 4.2 话题-核心模型

**原句**：在AI辅助编程方面，Karpathy更偏向"协作式中间态"。

```
(AI辅助编程方面) : (Karpathy > (更 : 偏向) > 协作式中间态)
```

**解读**：整个主命题被"AI辅助编程方面"这个原子背景限定——即命题只在此范围内评真值。`AI辅助编程`、`协作式中间态` 作为专有术语保持原子粒度。

### 4.3 身份嵌套模型

**原句**：OpenAI的创始元老Karpathy表示AGI仍有十年之遥。

```
(OpenAI : 创始 : 元老) : Karpathy > 表示 > (AGI > 仍有 > 十年之遥)
```

身份直接作为属性绑定到 Karpathy。"十年之遥"为原子词项。

### 4.4 致使模型

**拓扑**：`A > 致使词 > (B > 动作 > C)` —— 嵌入命题必须封装。

**原句**：论文促使Tishby认识到理论可能涵盖广泛的过程。

```
论文 > 促使 > (Tishby > 认识到 > (理论 > (可能 : 涵盖) > (广泛 : 过程)))
```

**原句**：测试设定了失败后不能重玩的限制，从而迫使智能体在行动前先想象不同策略的结果。

```
测试 > (设定 > ((失败后 & (不能:重玩)):限制)) > 从而 > 迫使 > (智能体 > (在:行动前) > (先:想象) > (不同:策略:结果))
```

**为什么嵌入命题必封装**：
1. 嵌入命题有自己的主语——"论文促使 Tishby…"中"论文"和"Tishby"不同，属主语切换。
2. 避免外层算子侵入——不封装时，内层命题末尾的 `>` 节点会被读成外层链的延续，辖域混乱。
3. 回读一致性——封装后 `A > 迫使 > (B > 做 > C)` 读作 "A 迫使 \[B 做 C]"；不封装则读成 "A 迫使 B 做 C"，当内层含多段 `>` 时必然串台。

### 4.5 条件模型

**拓扑**：`(条件命题) > 则 > (结果命题)`

**原句**：该计划如果不公开，就无法获得认可。

```
(该计划 > 不公开) > 则 > (该计划 > (无法:获得) > 认可)
```

### 4.6 让步模型

**拓扑**：`(命题1) > 尽管 > (命题2)`

**原句**：尽管下雨，比赛仍然继续。

```
(天 > 下雨) > 尽管 > (比赛 > (仍然 : 继续))
```

### 4.7 因果链模型

**原句**：经济下行导致消费萎缩，因此企业被迫裁员。

```
(经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > (被迫 : 裁员))
```

链式 `>` 让整条因果推导在语法上呈现为一条直线。由于主语在三命题间切换（经济/消费/企业），需要封装两端。

**反向连接词正向化**：

**原句**：由于每步想象都会增加计算成本，智能体会在初期想象多步结果。

```
((每步:想象) > (都会:增加) > (计算:成本)) > 所以 > (智能体 > (初期:会) > 想象 > 多步结果)
```

注意"由于"替换为"所以"，使 `>` 方向与因果流同向；`(初期:会)` 为语义重排，使修饰关系显式。

### 4.8 同主语扁平链模型

**原句**：它们能够学习阐释其内部模拟过程，从而使用即使不完美的环境动态模型。

```
它们 > (能够:学习) > 阐释 > (其:内部模拟过程) > 从而 > 使用 > ((即使:不完美):环境动态模型)
```

同主语承前省略，采用扁平 `>` 链，不重复主语也不封装两端。

### 4.9 介词/方位作 `>` 链阶段

**原句**：已有算法如AlphaGo能在规则完美的环境中利用内部模型进行推理和计划。

```
((如:AlphaGo):已有算法) > 能在 > 规则完美环境中 > 利用 > 内部模型 > 进行 > (推理 & 计划)
```

"能在"（模态+介词）作中段；"规则完美环境中"是操作流的一个阶段，保留在线性 `>` 链里比上提更忠实语义。

### 4.10 被动与否定复合模型

**原句**：现有框架不仅不适用，而且必须被立刻替换。

```
(现有 : 框架) > ((不 : 适用) & (必须 : 被 : 立刻 : 替换))
```

### 4.11 量化模型

#### 4.11.1 范围量化词（修饰主语 NP）

绑在主语 NP 上，作主语的左限定：

```
所有 : 学生 > 通过 > 考试
没有 学生 > 通过 > 考试        （"没有"为原子）
某 : 学生 > 通过 > 考试
每个 : 学生 > 通过 > 考试
```

#### 4.11.2 分布量化副词（绑动词头）

**均 / 都 / 全 / 各 / 皆 / 分别**——不修饰主语 NP，而是声明"对外层 scope 中每个元素，命题独立成立"。按 §3.5 状语-动词绑定模式 `(scope:V)` 处理：

```
(A:表现) > (均:优于) > (B:表现)
学生 > (都:通过) > 考试
他们 > (分别:完成) > 任务
```

**冗余省略**：当外层 scope 已表达全称（`这两种X中` / `所有X中` / `每个X时` / `两者都`），分布副词**冗余可省**——scope 包络 + 单一命题 = ∀ 已被结构编码：

```
(这两种:任务中) : ((A:表现) > 优于 > (B:表现))     （省"均"，scope 已蕴含 ∀）
(这两种:任务中) : ((A:表现) > (均:优于) > (B:表现))  （保留"均"以贴原句字面）
```

两种写法语义等价，前者更扁平、后者更贴字面。

**禁形**：

```
❌  (均:(A:表现)) > 优于 > (B:表现)     （"均"非属性修饰，"均的表现"不通）
❌  (A:表现) > 均 > 优于 > (B:表现)      （"均"非传递阶段；且违反约束 7 比较连词不带修饰）
✅  (A:表现) > (均:优于) > (B:表现)      （副词紧贴动词，符合 §3.5 状语-动词绑定）
```

#### 4.11.3 区分要点

| 类别 | 示例词 | 绑定位置 |
| --- | --- | --- |
| 范围量化词 | 所有 / 某 / 没有 / 每个 / 任一 | `:` 修饰主语 NP（§4.11.1） |
| 分布量化副词 | 均 / 都 / 全 / 各 / 皆 / 分别 | `(scope:V)` 绑动词头（§4.11.2 / §3.5） |
| 频次 / 时体 / 范围副词 | 再次 / 已经 / 一起 | `(scope:V)` 绑动词头（§3.5） |

**判定**：能否换成"和……都……"或"每个……都……"重写？换得通是分布副词（4.11.2），不通是范围量化词（4.11.1）。

### 4.12 句子级副词模型

**原句**：显然，他错了。

```
显然 : (他 > 错了)
```

**原句**：不幸的是，实验失败了。

```
(不幸 : 的是) : (实验 > 失败)
```

句子级副词通过 `:` 绑定到封装命题上，辖域精确锁定为整个命题。

### 4.13 跨句连接词模型

**原句**：然而，真实世界复杂且规则不明确，不可预知的问题频发。

```
然而 > ((真实世界 > (复杂 & (规则:不明确))) & ((不可预知:问题) > 频发))
```

句首"然而"作 `>` 首节点，不与 `:` 混淆。

### 4.14 比较模型

**原句**：A 比 B 更大。

```
A > (比 : B : 更 : 大)
```

或等价写法：

```
(A & B) > 比较 > (A > 更大)
```

前者把"比B更大"视为A的谓词属性，后者把比较视为一个显式的逻辑力。

**比较连词作 `>` 中段**：优于 / 胜过 / 不如 / 堪比 / 逊于 / 超过 ——必须 `>` + 完整两端比较项，不得把比较项 NP 塞进 `:` 右侧：

```
✅  A > 优于 > B
❌  A > (胜过:B)        （比较项 B 被吞为 V 属性）
```

**副词修饰比较连词**：使用 `(adv:比较词)` 形式（§3.5 状语-动词绑定）：

```
✅  (A:表现) > (均:优于) > (B:表现)
✅  X > (明显:胜过) > Y
✅  方案A > (略微:逊于) > 方案B
```

注意 `(adv:V)` 中 V 仍是动词头，比较结构 `S > V > O` 完整可抽——这与禁形 `(V:NP)` 形似而本质不同。

### 4.15 疑问与祈使模型

**疑问**："他吃了吗？"

```
疑问 : (他 > 吃了)
```

**祈使**："请关门。"

```
祈使 : (你 > 关 > 门)
```

语气作为句子级属性绑定到命题封装域上。

***

## 五、实战长难句解析

### 挑战句

**原句**：作为前负责人，Karpathy 今天明确向团队表示，该计划如果不公开，就无法获得认可。

### SVO 表达式

```
(前 : 负责人) : Karpathy > ((今天 & 明确 & (向 : 团队)) : 表示) > ((该计划 > 不公开) > 则 > (该计划 > (无法 : 获得) > 认可))
```

### 逐层解析

* **实体限定**（属性本体）：`(前:负责人) : Karpathy` —— 身份作为复合属性绑定到实体。
* **动作谓词**（属性本体）：`((今天 & 明确 & (向:团队)) : 表示)` —— 时间、方式、对象三属性合取后限定"表示"。
* **主动作流**（力本体）：`Karpathy > (...) > (...)` —— 施事→言说动作→言说内容。
* **言说内容**（力本体）：`((该计划 > 不公开) > 则 > (...))` —— 条件命题通过逻辑连词"则"驱动结果命题。
* **条件命题**：`(该计划 > 不公开)` —— 前件，完整命题封装。"不公开"中"不"与"公开"为临时否定组合，可用 `:` 拆为 `不:公开`，此处选择合并为原子以简化。
* **结果命题**：`(该计划 > (无法 : 获得) > 认可)` —— 后件，完整命题封装；"无法"为高频合成词原子。

### 粗粒度 vs 细粒度对比

算式合法不代表好用。下面两组对照展示粗粒度化的实际效果——同样一句话，过度原子化会陷入"LISP 括号综合征"，而粗粒度版能让语义重心一眼可见。

#### 对比示例 1：DeepMind 智能体

**原句**：DeepMind 通过赋予智能体想象力，提升智能体在复杂不完美环境中的学习效率和决策鲁棒性。

**❌ 过度原子化**：

```
DeepMind > ((通过 : (DeepMind > 赋予 > 智能体 > 想象力)) : 提升) > (智能体 : ((((复杂 & 不完美) : 环境) : 中) : ((学习 : 效率) & (决策 : 鲁棒性))))
```

**✅ 粗粒度优化版**：

```
(复杂不完美环境) : (DeepMind > ((通过 : (赋予 > 想象力)) : 提升) > 智能体:(学习效率 & 决策鲁棒性))
```

**优化点**：

1. **辖域上提**：把"复杂不完美环境"作为整个命题的背景，提到最前面。
2. **组块坍缩**：`复杂不完美环境`、`学习效率`、`决策鲁棒性` 各自合并为原子词项。
3. **省略主语重复**：施事 `DeepMind` 在主句中已出现，从属命题里的主语可省略为 `赋予 > 想象力`。
4. **方位词归并**：`环境中` 直接合并，不写作 `环境 : 中`。

#### 对比示例 2：智能体决策

**原句**：该智能体还能决定例如测试不同行动或构建复杂想象树的想象方式，并能优化计划的经济性和效率。

**✅ 粗粒度版**：

```
智能体 > (决定 > (例如:(测试>不同行动) | (构建>复杂想象树)) : 想象方式) & (优化 > 计划:(经济性 & 效率))
```

**优化点**：

1. **虚词省略**：`该`、`还`、`能`、`并` 不承载逻辑重量时删除。
2. **组块坍缩**：`想象树`、`想象方式`、`不同行动` 合并为原子词项。
3. **扁平化**：`(经济性 & 效率)` 一次性并联绑定到 `计划`。

***

## 六、书写步骤

**总原则**：按原句语序从左到右写，遇到结构点才启用算子。字面扭曲时语义重心优先，最终用"回读检验"兜底。

0. **句首扫描**：若句首为跨句连接词（然而/因此/从而/此外/总之 等），按 §3.10 方案 2 作 `>` 首节点，然后按下列流程处理剩余主体。
1. **标原子词项**：扫一遍句子，把专有名词、行业术语、偏正复合词、固定搭配、**高频合成词**（不能/没有/无法 等）标记为原子，后续不拆分。
2. **识别主干**：主语、主动词（或主命题）、宾语/补语。
3. **按原句顺序组装**：
   * 修饰关系 → `:` 绑定（修饰在左，被修饰在右；**不与"的"并存**）
   * 动作/逻辑流 → `>` 驱动（按原句顺序串联，中段填原句里的动词/介词/连接词；**反向连接词正向化**）
   * 原句并列项 → `&` / `|`
4. **字面 vs 语义**：字面语序扭曲语义重心时允许重排（省略冗余承接词、状语就近绑定、并列动作 `&` 切分）。
5. **封装辖域**：
   * 逻辑流 `>` 两端若是完整命题 → 必须 `( )`，**除同主语扁平链**
   * `:` 右操作数若是完整命题 → `( )`
   * **致使结构的嵌入命题 → `( )`**
   * **连续 `:` 语义分组与左结合不符 → `( )`**；三层以上必封装
   * 原句不歧义但 SVO 写法会引入歧义 → `( )` 消解
6. **自检（硬约束）**：
   * [ ] 没有把命题关系压成定语
   * [ ] 没有拆解专有名词、术语、固定搭配、高频合成词
   * [ ] 没有 SVO 层面引入的新歧义
   * [ ] 致使结构嵌入命题已封装
   * [ ] "的"与 `:` 没有并存
   * [ ] 跨句连接词没作 `:` 绑本句
   * [ ] 算式内没有中文标点
7. **回读检验**（最终检验）：把算式按结合律读成自然语言一遍，应与原句语义接近。读起来拗口或偏离原意 → 回去改。

***

## 七、常见陷阱

陷阱分两级：**错解**（必须修复）与 **可读性问题**（建议修复）。

### 7.1 错解（对应 §1.1 硬性约束）

#### 错解一：把命题关系压成定语

```
❌  ((不:公开):该计划) > 则 > (...)
✅  (该计划 > 不公开) > 则 > (...)
```

条件必须是完整命题。

#### 错解二：拆解专有名词、术语、固定搭配、高频合成词

```
❌  深度 : 强化 : 学习          ❌  不 : 能
❌  (基于 : 想象) : 计划 : 方法   ❌  没 : 有
✅  深度强化学习                 ✅  不能
✅  基于想象的计划方法            ✅  没有
```

#### 错解三：必要的辖域封装缺失

```
❌  显然 他 > 错了              ❌  P > 则 > Q
✅  显然 : (他 > 错了)           ✅  (P) > 则 > (Q)
```

#### 错解四：致使结构嵌入命题未封装

```
❌  A > 迫使 > B > 在:行动前 > 想象 > C
✅  A > 迫使 > (B > (在:行动前) > 想象 > C)
❌  论文 > 促使 > T > 认识到 > (...)
✅  论文 > 促使 > (T > 认识到 > (...))
```

致使结构的外层主语与内层主语不同，不是承前省略，属于主语切换。

#### 错解五：`:` 与"的"并存

```
❌  基于想象的:计划方法          ❌  其:发表的:两篇:相关论文
✅  (基于:想象):计划方法          ✅  (其:发表):(两篇:相关论文)
```

#### 错解六：跨句连接词作 `:` 绑本句

```
❌  然而 : (真实世界 > 复杂)
✅  然而 > (真实世界 > (复杂 & (规则:不明确)))
```

#### 错解七：`>` 方向与因果流相反

```
❌  (结果) > 由于 > (原因)
✅  (原因) > 所以 > (结果)
```

#### 错解八：中文标点作分隔符

```
❌  DeepMind:最新博客 > 介绍 > ... ，论文 > 共同探讨 > ...
✅  ((DeepMind:最新博客) > 介绍 > (...)) & ((该两篇论文) > (共同:探讨) > (...))
```

或拆成多行。

### 7.2 可读性问题（建议修复）

#### 话题辖域不清

```
歧义  (AI:方面) : Karpathy > 偏向 > X
明确  (AI:方面) : (Karpathy > 偏向 > X)       （整命题都在 AI 方面）
明确  Karpathy > ((AI:方面):偏向) > X         （仅动作在 AI 方面）
```

#### 俄罗斯套娃式嵌套

```
较差  ((((复杂&不完美):环境):中):((学习:效率)&(决策:鲁棒性)))
较好  ((复杂&不完美):环境中) : (学习效率 & 决策鲁棒性)
更好  复杂不完美环境中 : (学习效率 & 决策鲁棒性)
```

方位词并入名词、同层修饰先 `&` 后 `:` 一次绑定。

#### 连续 `:` 辖域模糊

```
❌  其:发表的:两篇:相关论文      （左结合解析：((其:发表的):两篇):相关:论文 — 串台）
✅  (其:发表):(两篇:相关论文)
```

三层以上的连续 `:` 几乎总需封装。

#### 范围/背景深埋 vs 操作流阶段

```
较差  DeepMind > 提升 > (智能体:(复杂不完美环境中:(学习效率&决策鲁棒性)))
较好  (复杂不完美环境):(DeepMind > 提升 > 智能体:(学习效率 & 决策鲁棒性))
```

但若场景是操作流阶段："先到 X 再做 Y"，保留线性：

```
✅  算法 > 能在 > 环境中 > 利用 > 模型 > 进行 > 计划
```

#### 同主语强制封装

```
较差  (它们 > 学习 > X) > 从而 > (它们 > 使用 > Y)
较好  它们 > 学习 > X > 从而 > 使用 > Y
```

承前省略应被尊重。

#### 字面语序绑架语义

```
较差  智能体 > (在:初期) > ((想象 > (多步:结果)) & (据此:行动))
较好  智能体 > (初期:会) > (想象 > 多步结果) & 行动
```

"据此"与 `&` 语义冗余可省略；"会在初期"重排为 `(初期:会)` 使修饰关系显式。

#### 冗余括号

按 §3.7「冗余括号识别」，下列写法都可去括号：

```
较差  ((不可预知:问题) > 频发)
较好  不可预知:问题 > 频发

较差  (DeepMind:最新博客) > 介绍 > ((其:发表):(两篇:相关论文))
较好  DeepMind:最新博客 > 介绍 > (其:发表):(两篇:相关论文)
       （`(其:发表):(两篇:相关论文)` 内的两层 `:` 分簇必须保留；外层括号可去）

较差  (智能体:学习效率) & (智能体:决策鲁棒性)
较好  智能体:学习效率 & 智能体:决策鲁棒性

较差  几个:(显著:特征)
较好  几个:显著:特征
```

但下列括号是结构性必需，**不要去**：

```
✅  ... > (复杂 & 规则:不明确)              （`&` 在 `>` 操作数内）
✅  显然 : (他 > 错了)                      （`>` 命题作 `:` 右操作数）
✅  论文 > 促使 > (T > 认识到 > (...))       （致使嵌入命题）
✅  (其:发表):(两篇:相关论文)                （连续 `:` 真实分簇）
```

***

## 附录：判定口诀

> **能回读成原句的就是对的算式。**
>
> **限定什么东西是什么** → `:`
> **描述能量/顺序从哪流到哪** → `>`
> **原句里本就并列** → `&` / `|`
> **整块要被外层作用** → `( )`
>
> 形式规则启动点：
>
> 1. 命题关系别被压成定语。
> 2. 专有名词、高频合成词（不能/没有/无法 …）别拆。
> 3. 有歧义就封装；致使结构的嵌入命题必封装。
> 4. 跨句连接词作 `>` 首节点，不用 `:`。
> 5. `>` 方向与能量/因果流同向；反向连接词（由于/because）正向化为（所以/so）。
> 6. `:` 与"的"不共存；中文标点不是分隔符。
> 7. 同主语承前省略 → 扁平 `>` 链；主语切换 / 并列 / 多段嵌套链 → 两端封装。
>
> 其他一切按原句写。