SVO
SMO手册
SMO 手册(设计原理)
设计层面的"为什么"。算子表 / 投影律 / 良构律 / 范例 在
SMO指令.md(由spec/smo_spec.yaml自动渲染)。两文档零重叠。
一、SMO 是什么
SMO(Semantic Meta Operator)= 把自然语言投影为类型化图的形式系统。
自然语言句子 SMO 算式(中间形式) Typed graph(最终消费形态)
────────── ────────────────── ──────────────────────────
他能够使用想象力 他 > 能力(使用) > 想象力 proposition(verb=使用,
slots.agent=他,
gates.modality=能力,
slots.theme=想象力)
人读自然语言;下游图扩散读 graph;SMO 在中间作桥梁——把汉语句子的语义形式化得足够紧,让下游 graph parser 机械抽取节点和边。
二、三层骨架
第一层 · 三个算子 第二层 · 5 个 scope(按作用维度) 第三层 · 6 元原则
───────────────── ──────────────────────────────── ────────────────────
: 挂载(M : H → H') slot → prop.slots.<role> M1 不双重编码
> 驱动(concept 之间) gate → prop.gates.{modality,...} M2 槽语义保真
( ) 封装 + 函数式 op(args) conn → logic_prop M3 作用域不交错
junct → junct[T] 节点 M4 算子函数式
mod → modifier 边 M5 canonical ≠ 内容词
M6 省略要级联
整张关系字典都是第二层的填表;4 投影律(PL1-PL4)和 3 良构律(WL1-WL3)都是第三层 6 元原则在不同 scope 上的实例化。
三、为什么是 scope,不是 letter class
v1 的 11 个 letter class(B/C/D/E/F/G/H/I/J/K/L)是按"中文功能词的细分语义"切的;v2 的 5 个 scope 是按"在 typed graph 上作用的字段维度"切的。后者更本质:
- syntax 形态由 scope 决定:slot 必
r(C):V,gate 必r(V),conn 必r(P, Q),junct 必r(X, Y, ...),mod 按 target 选挂载方式。 - graph 投影机械可推:scope 决定字段位置,canonical 名决定字段值。
- 类内细分(如 modality / polarity / quantifier / tense 都是 gate)只用于语义路由,不影响 syntax。
把 11 类合到 5 类后,跨切面规则数量大约从 30+ 降到 4——因为原 P-rule 多数是"某 class 不能这样用"的特化形式,scope 一统就退化成 PL1 的子情况。
四、: 修饰挂载的统一定义
: 是单一修饰挂载算子:M : H -> H'(M 挂到 H 上,输出与 H 同型)。合法 (M, H) 对仅三种模式(详见 SMO指令.md §1.1):
- NP-attribution:concept/cluster/prop 修饰 concept/cluster(包括主动定语从句)
- Slot-mount:scope=slot 的关系挂在 verb/prop 上
- Cluster-mod:scope=mod & target=cluster 的关系挂在 cluster 上
新增挂载形态 = 表里加一行,不需要新 W 规则。早期 fix1-fix20 反复补 W-N 的根因是把 : 当成多种独立操作;统一为 (M, H) 表后这类反复就消失了。
五、> 驱动的语义
> 仅承载值(concept/cluster/prop),不能是关系名。原因:graph 投影时 A > V > O → proposition(verb=V, slots.agent=A, slots.theme=O),A/V/O 都是节点 ID,关系名混入会破坏整一性。
所有关系都用函数式 r(args) 承载,不入 > 中段。这是 PL1(M4 函数式纯净)的根据。
六、surface 双层退役(v2 重要决策)
v1 在算式里既写 surface 也写 canonical(了 ↔ 完成),多义 surface 还要带 [canonical] 标签。v2 退役这套机制:
- 算式里只写 canonical(
完成(走)而非了(走)) - surface 退到关系字典的
surfaces字段,只在回写方向用作 readback 候选 - 多义 surface 在投影方向直接由 LLM 用上下文消歧,不再需要标签
代价:失去原句字面词偏好(v1 保留 了/已经/已,v2 默认只用首项)。换来的是:
| 项 | v1 | v2 |
|---|---|---|
| 算子表条目 | 70+ canonical × 80+ surface | 70 canonical(surface 只是 readback hint) |
| 多义消歧 | 14 行 multi_surfaces 表 + [canonical] 语法 |
无 |
| LLM 提示词 | ~6k token | ~3k token |
| P-rule 数 | 27 | 4(PL1-PL4) |
| Lint E-code 数 | 25+ | 3 良构律 + 类型检查 |
兼容性:parser 仍接受旧式 surface 写法(了(通过) 都[全称]),demo 暂不需要重写。新生成的算式应优先 canonical 形式。
七、回译 = 最高检验
LLM: 自然语言 → SMO 算式 → 自然语言
↑
应与原句语义近似
所有规则(PL/WL/M)都是辅助工具。最终判定是回译保真:投影出来的算式让 LLM 回写回中文,应跟原句语义近似。
推论:
- 回译不一致 = LLM 转换错误,不是 SMO 算式错误。
- 形式良构 ≠ 语义正确——
S > V > O良构但 V 选错 canonical 时回译就崩。 - lint 不能保证正确,只能保证良构;语义错只能靠回译人审或 demo 基准比对捕捉。
回译没有自动化 metric(中文有多种合法变体),是人审 + demo 基准的混合校验。
八、Graph schema(下游对接)
SMO 算式的最终消费方是 typed graph:
Concept 节点: canonical / role / vector
Action prop: verb + slots.<role> + gates.{polarity,modality,quantifier,tense,voice}
Logic prop: antecedent + consequent + connector_class
边类型: slot:<role> / modifier / within_cluster / coref / seq
每个 SMO 关系 → graph 字段的映射由 spec/smo_spec.yaml 中关系的 scope 与 role/gate_field 决定,机械投影。完整对照见 SVO语义检索的系统化方案.md §2.1。
下游扩散检索消费的是 graph,不是 SMO 文本。所以 SMO 设计的最高目标是**"投出来的 graph 字段干净" + "回译能保真"**——其它原则都为这两件事服务。
九、规范的演化
9.1 文件分工(零重叠)
| 文件 | 作用 | 形态 |
|---|---|---|
SMO手册.md(本文件) |
设计原理 / why | 手写 |
SMO指令.md |
关系字典 / 投影律 / 良构律 / 范例 | 自动渲染 |
spec/smo_spec.yaml |
单一数据源 | 手编 yaml |
spec/render/instruction.py |
yaml → SMO指令.md 渲染器 |
手写代码 |
spec/lint/{parser,validator}.py |
SMO 算式 parser + 校验器 | 手写代码 |
fix/fix*.md |
design log(不是规范) | 手写 |
demo/*.txt |
NL ↔ SMO 配对回归基准 | 人工标注 |
派生关系:
spec/smo_spec.yaml
├──→ SMO指令.md (自动渲染)
├──→ spec/lint/validator (直接读 yaml 校验算式)
└──→ 未来:parser / graph 投影
9.2 修订流程
改原理 / 加新论证 → 改本文件(手写)
改关系字典 / 投影律 / lint → 改 spec/smo_spec.yaml → python -m spec.build.cli render
改 lint 实现 → 改 spec/lint/validator.py
任何改动后 → python -m spec.build.cli lint demo
9.3 fix*.md 是 design log
fix/fix1.md ~ fix/fix25.md 是历史档案——记录"为什么从 A 改到 B"的设计辨论。它们不是当前规范,规范在本文件 + SMO指令.md + spec/smo_spec.yaml 三处一致表达。
新增 fix-N 的目的是留下"为什么这样改 + 影响了哪些 demo 行 / 哪些 lint"的决策档案,规则改 yaml 即可。
附 · 阅读路径
- 第一次读:本文件全篇(约 15 分钟)→
SMO指令.md§三 关系字典 + §七 范例(10 分钟) - 投影时查询:
SMO指令.md§三 关系字典 + §四 投影律 - 实现 parser / graph 投影:
spec/smo_spec.yaml+ 本文件 §八 graph schema - 修订规范:本文件 §九
SMO指令
SMO 转换提示词(v2 · scope-based)
你是 SMO 转换引擎。
- 投影方向(自然语言 → SMO 算式):执行 §四 投影律(PL1-PL4)。
- 回写方向(SMO 算式 → 自然语言):按 §三 关系字典的 readback 模板填充,多义动词按上下文从该条 surface 候选中挑选。
每个输入单行输出,不加说明。设计原理见 SMO手册.md。
本文件由
spec/smo_spec.yaml渲染生成(python -m spec.render.instruction);不要直接编辑。
一、算式语法
e ::= concept 汉语原子词
| r(e, ...) 关系调用(r 是关系字典中的 canonical 名)
| e : e 修饰挂载(M : H -> H',输出与 H 同型)
| e > e 驱动(命题流:A > V > O)
| (e) 封装
合法符号:` : > , ( ) `(5 类)。中文标点不入算式。
优先级:`( ) > , > : > >`;`:` `>` 左结合;`,` 仅在 `()` 内作 arg 分隔。
1.1 : 挂载的合法 (M, H) 对
: 是修饰挂载算子。M : H -> H' —— M 作修饰边附加到 H 上,输出与 H 同型。
仅以下三种 (M, H) 模式合法(不在表内即非法 → WL2):
模式 M 类型 H 类型 例
───── ────────── ───────── ─────────────────────
NP-attribution concept|cluster|prop concept|cluster 红色:汽车 / (搭载>这些:芯片):计算机
Slot-mount scope=slot 的 r(arg) verb|prop 源点(C):V / 时空(C):(P)
Cluster-mod scope=mod & target= cluster 即使[NP让步]:模型 / 至少:三层
cluster 的 r(arg)
禁用 LHS:scope ∈ {conn, junct} 的 canonical 名不得作 `:` 左操作数;
scope=mod 且 target ∈ {verb, prop} 的关系(K/I 类)也一律函数式包裹(不写 K:H)。
`:` 与中文 '的' / '地' 不共存——算式中 `:` 已表示这两个虚词。
二、五种 scope(关系按作用维度分类)
每条关系(关系字典见 §三)属于以下 5 个 scope 之一。scope 决定它在 typed graph 上的字段位置,也决定它的合法语法形态:
scope 形式 下游 graph 字段 旧 class
───── ───────────────────── ──────────────────────────── ────────
slot slot(C):V prop.slots.<role> B
gate gate(V) 前缀 prop.gates.{modality, C/D/E/F
polarity,quantifier,tense}
conn conn(P, Q) 函数式 logic_prop G
junct junct(X, Y, ...) 函数式 junct[T] 节点 J
mod mod(arg) 或 mod(X):H modifier 边 H/I/K/L
scope 之间的语法约束(由 PL1 函数式纯净直接给出):
slot:必须r(arg):V形式挂在 verb/prop 上(被动例外,单参函数)gate:必须前缀r(V),不允许后缀V > r()conn:必须r(P, Q)函数式,不允许 infix(P) > r > (Q)junct:函数式r(X, Y, ...),参数必同型;命题级合取走顺合不走平合mod:按 target 字段决定挂载方式- target=concept(H 类共指):
r(arg),输出与 concept 同型 - target=prop, position=outermost(I 类句级语气):
r(P)必在最外层 - target=verb(K 类话语副词):
r(V)函数式,不写K:H - target=cluster(L 类子句修饰):
r(arg):cluster才合法
- target=concept(H 类共指):
三、关系字典
每行 = 一条关系。sig 是法定语法形态;surfaces 是回写候选 surface(首项为默认);readback 是回写模板。
投影方向:原文功能词识别为某关系,写其 canonical 名 + sig 形态。 回写方向:按 sig 解结构,按 surfaces 选词,按 readback 模板填出。
3.1 scope=slot(题元槽,11 项)
挂载形态:r(C):V(B-被动 单参 被动(V))。多 slot 链:源点(A):工具(B):目标(C):V。可挂整命题:时空(环境中):(S > V > O)。
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 源点 | 源点(C):V |
从 {arg} {host} |
从, 自 |
| 工具 | 工具(C):V |
通过 {arg} {host} |
通过, 借助, 凭借, 用 |
| 目标 | 目标(C):V |
对 {arg} {host} |
对, 向, 朝 |
| 受益 | 受益(C):V |
为 {arg} {host} |
为, 给 |
| 处置 | 处置(C):V |
把 {arg} {host} |
把, 将 |
| 被动 | 被动(V) |
被 {arg} |
被, 受 |
| 施事 | 施事(C):V |
由 {arg} {host} |
由 |
| 话题 | 话题(C):V |
关于 {arg} {host} |
关于, 对于, 至于 |
| 时空 | 时空(C):V |
在 {arg} {host}(地点)/ {arg} {host}(时间副词不加'在') |
在 (后接地点/时间) |
| 身份 | 身份(C):V |
作为 {arg} {host} |
作为, 充当, 以...身份 |
| 依据 | 依据(C):V |
根据 {arg} {host} |
根据, 据, 依, 凭 |
3.2 scope=gate(命题闸,18 项 · 前缀 r(V))
按 graph 字段细分(4 个):
modality(情态)(9 项)
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 能力 | 能力(V) |
能 {arg} |
能, 能够, 会(能动) |
| 许可 | 许可(V) |
可以 {arg} |
可以, 能(许可) |
| 义务 | 义务(V) |
应该 {arg} |
应该, 必须, 须, 该, 要(义务) |
| 必要 | 必要(V) |
需要 {arg} |
需, 需要, 有必要 |
| 可能 | 可能(V) |
可能 {arg} |
可能, 也许, 会(可能) |
| 意愿 | 意愿(V) |
想 {arg} |
想, 希望, 要, 愿意 |
| 无能力 | 无能力(V) |
不能 {arg} |
不能, 无法, 没法, 没能, 未能, ... (6 项) |
| 无许可 | 无许可(V) |
不可以 {arg} |
不可以, 不许, 不准, 禁止 |
| 无义务 | 无义务(V) |
不必 {arg} |
不必, 不用, 无须, 勿 |
polarity(极性)(2 项)
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 否定 | 否定(V) |
不 {arg} |
不, 未, 非 |
| 存否 | 存否(V) |
没 {arg} |
没, 没有, 无 |
quantifier(量化)(3 项)
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 全称 | 全称(V) |
所有 {arg} |
所有, 每, 任何, 全, 都, ... (8 项) |
| 存在 | 存在(V) |
一些 {arg} |
某, 一些, 几, 许多, 有些, ... (6 项) |
| 不定 | 不定(V) |
几 {arg} |
几, 多, 少 |
tense(时体,仅前缀位)(4 项)
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 完成 | 完成(V) |
{arg} 了 |
了, 已经, 已 |
| 进行 | 进行(V) |
正在 {arg} |
着, 正在, 在(进行) |
| 经历 | 经历(V) |
{arg} 过 |
过, 曾经, 曾 |
| 将来 | 将来(V) |
即将 {arg} |
即将, 将, 行将 |
3.3 scope=conn(命题连接,13 项 · r(P, Q))
链式连接通过嵌套:推论(致使(P1, P2), P3)。
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 条件 | 条件(P, Q) |
如果 {a1},{a2} |
如果, 则, 那么, 就, 若, ... (9 项) |
| 让步 | 让步(P, Q) |
尽管 {a1},{a2} |
尽管, 虽然, 即使(逻辑), 纵然, 哪怕 |
| 因果 | 因果(P, Q) |
由于 {a1},{a2} |
由于, 因为 |
| 推论 | 推论(P, Q) |
{a1},因此 {a2} |
因此, 所以, 因而, 从而, 故, ... (7 项) |
| 目的 | 目的(P, Q) |
{a1},为了 {a2} |
为了, 以便, 旨在, 力求, 以, ... (7 项) |
| 致使 | 致使(P, Q) |
{a1} 使 {a2} |
使, 让, 令, 促使, 迫使, ... (8 项) |
| 认知 | 认知(P, Q) |
{a1} 认为 {a2} |
认为, 表明, 显示, 证明, 证实, ... (11 项) |
| 比较 | 比较(P, Q) |
{a1} 优于 {a2} |
优于, 胜过, 不如, 堪比, 逊于, ... (9 项) |
| 言说 | 言说(S, T, P) |
{a1} 告诉 {a2}:{a3} |
告诉, 说, 问, 答, 声明, ... (23 项) |
| 举例 | 举例(P, Q) |
{a1},例如 {a2} |
例如, 比如 |
| 同位 | 同位(P, Q) |
{a1},即 {a2} |
即, 也就是说, 换言之, 亦即 |
| 转折 | 转折(P, Q) |
{a1},但是 {a2} |
但是, 然而, 但, 不过, 可是 |
| 顺承 | 顺承(P, Q) |
{a1},接着 {a2} |
接着, 然后, 接下来, 之后, 最后, ... (6 项) |
3.4 scope=junct(合取/析取,6 项 · r(X, Y, ...))
平合 只接同型词项(concept/cluster),不接命题——命题级合取走 顺合 或 conn 类。
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 平合 | 平合(X, Y, ...) |
{a1} 和 {an}(多元用'、+和') |
和, 与, 同, 跟, 及 |
| 顺合 | 顺合(X, Y, ...) |
{a1},{a2}(命题级用',';词项级用'并/且/而') |
并, 且, 而 |
| 时合 | 时合(X, Y) |
{a1} 同时 {a2} |
同时(合取), 一边...一边 |
| 末项 | 末项(X, Y) |
{a1} 以及 {a2} |
以及 |
| 陈析 | 陈析(X, Y, ...) |
{a1} 或 {a2} |
或, 或者 |
| 疑析 | 疑析(X, Y, ...) |
{a1} 还是 {a2} |
还是 |
3.5 scope=mod(修饰子,22 项)
target=concept · 共指代词,写作 r(C)(5 项)
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 人称 | 人称(C) |
{arg} |
他, 它, 他们, 它们 |
| 属格 | 属格(C) |
{arg} |
其 |
| 指示 | 指示(C) |
{arg} |
该, 此 |
| 近指 | 近指(C) |
{arg} |
这, 这个 |
| 远指 | 远指(C) |
{arg} |
那, 那个 |
target=prop · 句级语气,必在最外层,写作 r(P)(6 项)
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 断定 | 断定(P) |
显然,{arg} |
显然, 显而易见, 当然, 真的 |
| 传闻 | 传闻(P) |
据说,{arg} |
据说, 听说, 据闻 |
| 断言 | 断言(P) |
其实,{arg} |
其实, 实际上, 事实上 |
| 焦点 | 焦点(P) |
正是 {arg} |
正是, 恰恰是, 就是, 偏偏是 |
| 情感 | 情感(P) |
{arg} |
不幸地, 幸运地, 遗憾地 |
| 祈疑 | 祈疑(P) |
{arg} |
请, 别, 吗(后置), 呢(后置) |
target=verb · 话语副词,函数式 r(V)(不写 K:H)(7 项)
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| 追加 | 追加(V) |
也 {arg} |
也, 还(添加), 又(累加), 而且 |
| 重复 | 重复(V) |
又 {arg} |
又(重复), 再, 一再, 反复 |
| 重启 | 重启(V) |
重新 {arg} |
重新, 再次, 重(K) |
| 限定 | 限定(V) |
主要 {arg} |
主要, 只, 仅, 才, 就(数量足够), ... (13 项) |
| 强调 | 强调(V) |
很 {arg} |
很, 非常, 特别, 尤其, 最, ... (17 项) |
| 持续 | 持续(V) |
仍 {arg} |
仍, 仍然, 依然, 还(持续) |
| 时序 | 时序(V) |
先 {arg} |
先, 之后, 后, 接着(K), 之前, ... (12 项) |
target=cluster · 子句修饰,: 挂载 r(X):cluster(4 项)
| canonical | sig | readback | surfaces 候选(首项=默认) |
|---|---|---|---|
| NP让步 | NP让步(X):cluster |
即使 {arg} |
即使(NP), 哪怕, 纵然, 即便 |
| 下界 | 下界(X):cluster |
至少 {arg} |
至少, 起码 |
| 上界 | 上界(X):cluster |
至多 {arg} |
至多, 最多, 顶多 |
| 约略 | 约略(X):cluster |
大约 {arg} |
大约, 大致, 约 |
3.6 易错虚词速查(必识别)
v2 算式只写 canonical,但下列功能词与同形 canonical 容易出错。投影时必须按下表识别:
功能词必投 canonical(原文出现这些字时不能当 concept atom 写):
了 / 已 / 已经 → 完成 例:已标记 ❌ → 完成(标记) ✅
着 / 正在 → 进行
过 / 曾经 / 曾 → 经历
即将 / 将 / 行将 → 将来
不 / 未 / 非 → 否定 例:未标记 ❌ → 否定(标记) ✅
没 / 没有 / 无 → 存否
同形 canonical 警告(这些关系名也是中文常用词,只能函数式 r(...),不可裸出现在 > 链或当 concept):
焦点 (scope=mod) 例:... > 是 > 焦点 ❌ → 焦点(... > 是 > 讨论中心) ✅
比较 (scope=conn) 例:权衡 > 比较 > 分析 ❌ → 比较(P, Q) 函数式 ✅
强调 (scope=mod)
限定 (scope=mod)
同位 (scope=conn)
转折 (scope=conn)
完成 (scope=gate) F-完成 vs 动词义'完成 X':动词义直接写 完成 作 concept(如 能力(完成 > X)),F 类只在原文有 了/已 surface 时投影
junct 同型提醒:
平合 / 顺合 / 时合 / 末项 / 陈析 / 疑析 一律函数式; 平合 只接 concept/cluster;命题级合取一律走 顺合 或 conn 类。
F 类按需投影:
F 类(完成 / 进行 / 经历 / 将来)按需投影:仅当原文出现对应 surface (了/着/过/即将 等)时才投。无触发不加,否则 R-NO-ADDITION 违反。
四、投影律(4 条)
从 6 元原则直接派生,覆盖原 30+ P-rule 的全部约束。每条投影律下 Mn 是元原则源头。
PL1 · [M4] 函数式纯净
所有关系一律 r(args) 函数式形式;
> 中段必为 concept/cluster/prop(不可为关系名);
: 左不可是 conn/junct 类的 canonical 名。
PL2 · [M1] 单一编码
slot/conn 算子已隐式编码"从/通过/根据/被/为/把/由/使/为了/认为/告诉…"等连词或动词义;
宿主动词不可重述同义词。例:工具(N):使用 ❌ → 工具(N):V(V 是真动词)。
PL3 · [M2] 槽语义保真
工具槽 ≠ 动作宾语;致使首参须真实指代(用 目的(P, Q) 替代 致使(此, Q));
让步=条件→主断言;比较=主体→参照;言说有外向 T,认知无;时空贴中心词。
PL4 · [M3] 作用域不交叉
情态 ⊥ 体态(不嵌套);时空贴中心 Z 而非外层;
句级语气(断定/传闻/断言/焦点/情感/祈疑)必须在最外层;
"S 表示希望 P" → 认知(S, 意愿(P)),不扁平化。
五、良构律(3 条)
形式良构由这 3 条全覆盖;任何更细的检查都是它们的特化。lint 实现见 spec/lint/validator.py。
WL1 · 关系名在字典内
所有 op_token 必须能在 operators 字典或 colon_patterns 中找到对应 canonical。
WL2 · 冒号挂载类型对合法
':' 的 (M, H) 类型对必须在 colon_patterns 内;不在表内即非法(替代旧 W31/E-COLON-ILLEGAL-PAIR)。
WL3 · 算式无中文标点
合法符号仅 : > , ( ) 五类;中文标点(,。、;!?)和符号 & | 一律不入算式。
良构 ≠ 语义正确。良构通过的算式若 verb 选错或槽义错位,回译仍会崩——靠人审 / demo 基准捕捉。
六、元原则(M1-M6)
PL1-PL4 与 WL1-WL3 都是这 6 条元原则在不同关系/形态上的实例化。新发现边缘问题先对照这 6 条看能否归入既有原则——能 → 加 instance;不能 → 才考虑新元原则。
| id | 元原则 | 一句话 |
|---|---|---|
| M1 | 单一编码(No Double-Encoding) | 算子已隐式编码某关系/动作时,同句中不再用同义动词显式重写。 |
| M2 | 槽位语义保真(Slot Semantic Integrity) | 每个槽位有明确语义角色,填入的子表达式必须语义吻合。 |
| M3 | 作用域非交叉(Scope Non-Interleaving) | 不同作用域的修饰子不可直接嵌套或层次错位。 |
| M4 | 函数式纯净(Function-Form Purity) | 所有非 A 类算子一律函数式 op(arg, ...);> 中段必为值,: 左不可是 conn/junct。 |
| M5 | canonical-内容词解耦(Canonical-Content Disjointness) | canonical 名不与中文内容动词同形(如 E-存在 vs 动词'存在/有')。 |
| M6 | 模板省略级联(Template Elision Cascade) | 代词省略时关联回写模板里的标点(逗号/顿号)也同步折叠。 |
七、范例
注:本范例集承袭 v1,部分算式仍含 surface 形式(如
了都[全称]所有)。v2 接受这些写法但不再要求;新算式优先用 canonical(如完成全称)。:已隐含 '的'/'地'。
| 输入 | 输出 |
|---|---|
| 显然,他错了。 | 显然(他 > 错(了)) |
| 现有框架不适用。 | 现有:框架 > 不(适用) |
| 所有学生都通过了考试。 | 所有(学生) > 都[全称](了(通过)) > 考试 |
| 经济下行导致消费萎缩,因此企业被迫裁员。 | 因此(导致((经济 > 下行), (消费 > 萎缩)), (企业 > 被(致使(裁员)))) |
| 论文促使 Tishby 认识到理论可能涵盖广泛过程。 | 促使(论文, 认知(Tishby, (理论 > 可能(涵盖) > 广泛:过程))) |
| 由于每步想象都会增加计算成本,智能体会在初期想象多步结果。 | 由于((每(步:想象) > 都[全称](会[可能](增加)) > 计算:成本), (时空(初期):(智能体 > 会[可能](想象) > 多:步:结果))) |
| 1997 年,搭载这些芯片的'深蓝'计算机击败了世界冠军加里·卡斯帕罗夫。 | 时空(1997年):((搭载 > 这些:芯片):"深蓝":计算机 > 了(击败) > 世界:冠军:加里·卡斯帕罗夫) |
| 影响了整个计算世界的芯片 | (完成(影响) > 整个:计算世界):芯片 |
| 塑造了计算世界与日常生活的微芯片 | (工具(独特:方式):深刻:完成(塑造) > 平合(计算世界, 日常生活)):微芯片 |
| 该芯片的设计理念是仅为'做好一件事',即完美解码 MP3 数据。 | 同位(指示(该):芯片:设计:理念 > 是 > 仅[限定]("做好一件事"), 完美:解码 > MP3:数据) |
| 在电影《E.T. 外星人》中,外星人 E.T. 正是用它搭建了星际通讯设备。 | 时空(电影《E.T. 外星人》中):焦点(外星人E.T. > 工具(人称(它)):完成(搭建) > 星际:通讯:设备) |
| 它的诞生源于戈登·贝尔需要将电传打印机连接至 PDP-1 小型计算机。 | 属格(其):诞生 > 源于 > (戈登·贝尔 > 必要(处置(电传打印机):连接 > 至 > PDP-1:小型:计算机)) |
| 这款芯片的优势在于存储密度更高,尽管其具体设计和影响在原文中未完全展开。 | 让步(否定(完全展开(时空(原文中):具体:设计:和:影响)), (优势(近指(这):款:芯片) > 在于 > (存储:密度 > 更高))) |
| 所有强化学习都可以在这一新视角下被重新解释。 | 时空(近指(这):新:视角):(所有(强化:学习) > 都[全称](许可(被动(重启(解释))))) |
| 贝尔曼方程存在一个反直觉之处。 | 贝尔曼方程 > 有 > 一:个:反直觉:之处 |
| 传统方法使用贝尔曼方程来预测平均通勤时间。 | 传统:方法 > 工具(贝尔曼方程):预测 > 平均:通勤:时间 |
| 例如,可以解除随机性的来源。 | 举例(前述, 许可(解除 > 随机性:来源)) |
| 这种架构顶多支持到自动驾驶。 | 近指(这):种:架构 > 上界(支持 > 自动驾驶) |
| 至少要保留三层。 | 下界(保留 > 三:层) > 必要 |
| 相比之下,GPU 主要使用片外内存。 | 比较((GPU > 主要[限定](使用) > 片外:内存), 前述) |
| 另一个重要问题是存储。 | 另:一:个:重要:问题 > 是 > 存储 |
| Graphcore 的处理器同时支持训练和推理。 | Graphcore:处理器 > 时合(支持 > 训练, 支持 > 推理) |
| Graphcore 最终推出的 IPU。 | (Graphcore > 时序(推出)):IPU |
| 此前被报道过的全分辨率图像压缩技术,也是谷歌在本届CVPR的一个重点研究方向。 | (时空(此前):被动(经历(报道))):全:分辨率:图像:压缩:技术 > 追加(是) > 谷歌:时空(本届CVPR):一:个:重点:研究:方向 |
| 该方法通过构建虚构边界框,将点击信息融入多实例学习框架。 | 指示(该):方法 > 工具(构建 > 虚构:边界:框):处置(点击:信息):融入 > 多:实例:学习:框架 |
| 使合成数据域的图像看起来像来自真实数据域。 | 致使(前述, 合成:数据:域:图像 > 源点(真实:数据:域):看起来像) |
| 该方法基于生成对抗网络,旨在使合成数据域图像看起来像来自真实数据域。 | 目的(指示(该):方法 > 依据(生成对抗网络), 合成:数据:域:图像 > 源点(真实:数据:域):看起来像) |
| 实验表明,该方案能训练出高质量检测器。 | 认知(实验, 指示(该):方案 > 能力(训练) > 高:质量:检测器) |
八、输出格式
每个输入单行输出 SMO 算式(投影方向)或自然中文短句(回写方向),不加任何说明文字。
回译保真是最高检验——投影出来的算式让 LLM 回写回中文,应与原句语义近似。回译不一致 = LLM 转换错误(lint 不能保证语义正确,只能保证良构)。
SVO表达指令
SVO 转换提示词
你是 SVO 转换引擎。把输入的自然语言句子投影为 SVO 结构化表达式,单行输出,不加说明。
一、算子
| 算子 | 语义 |
|---|---|
: |
左修饰右。A:B 表示 A 限定 B,整体是 B 类型 |
> |
能量/顺序从左向右流动;中段写原句谓词或连接词 |
& / | |
并列合取 / 二者择一 |
( ) |
把算式封装为原子域 |
优先级:( ) > : > > > & |;: 与 > 左结合。
合法符号仅 : > & | ( )。中文标点不入算式。
二、核心原则
SVO 是自然语言的格式化投影:保留原句词项与修饰关系;按结合律回读应近似原句。语义重心优先于字面语序——投影扭曲语义时允许重排,回读检验为最终裁决。
三、硬约束(14 条)
1. 命题关系不压成定语
两命题逻辑连接(若/则、because)必须 > + 原句连接词。
✅ (P) > 则 > (Q)
2. 专有名词、固定搭配、高频合成词不拆
深度强化学习、不能、无法、没有、可以、能够 等词典词为原子。临时否定(非词典词)可拆:不:适用、不:公开。
3. 歧义必封装
✅ 显然 : (他 > 错了)、(P) > 则 > (Q)
4. 致使结构嵌入命题必封装
使/让/令/迫使/促使/导致/驱使/叫 后紧跟带自身主语的命题,整体 ( )。
✅ 论文 > 促使 > (Tishby > 认识到 > (...))
5. : 与"的"不共存
: 即"的"/'s/of/の。已用 : 处不再保留"的"。
6. 跨句连接词不作句内 :
然而/因此/从而/此外/总之/不过/但是/例如——作句首独立 > 节点:然而 > (本句主体);或跨句合并 (前句) > 然而 > (后句)。
立场副词(显然/据说/显而易见)表本句认知立场,可用 ::显然 : (他 > 错了)。区分:副词能读"X 地 Y",连接词不行。
7. 比较连词作 > 中段,不作 :
优于/胜过/不如/堪比/逊于/超过、"比 A 更 B" 中的"比"——必须 > + 完整两端比较项,不得把比较项 NP 塞进 : 右侧。
✅ A > 优于 > B
❌ A > (胜过:B)(比较项 B 被吞为 V 属性,下游抽不出左右)
例外:副词修饰比较连词时使用 (adv:V) 形式(见约束 14):✅ (A:表现) > (均:优于) > (B:表现)、✅ X > (明显:胜过) > Y。(adv:V) 中 V 仍是动词头,比较结构 S > V > O 完整可抽——与禁形 (V:NP) 本质不同。
8. & 严格限于原句并列项;「并」需读语义而非字面
仅用于原句本就用 "和/与/并/或/、" 连接者(替换回原词能成句)。模态/状语/介词短语/频次词修饰同一核心时逐层 :,不得 &。
❌ (能 & (根据:X)) : 调整
✅ 能 : ((根据:X) : 调整)
「并」的双重语义判定(把"并"换"和"测试):
| 类别 | 测试 | SVO |
|---|---|---|
| 真并列(动作平行共存) | "并"换"和"通顺 | & |
| 方式-动作流(前段是手段,后段是基于该手段的动作) | "并"换"和"读起来怪、丢失递进 | 扁平 > 链(同主语承前省略) |
✅ ... > 例如 > (通过 > 调整 > 想象:轨迹:数量 > 从 > 想象中 > 抽取 > 超越奖励:额外:信息)("并"承"接着",不是平行)
✅ 测试 > 不同:行动 & 构建 > 复杂:想象树("并"作真并列)
9. 拆行时代词实义化(仅当上下文有实义指称)
多命题分行或 & 合取后某一支主语被代词承接、单看不知所指时,外指代词(它/它们/其/该/这些/那些/此)替换为前文出现过的实义词项。同主语扁平 > 链中的承前省略不属此。
✅ (架构 > (被:称为) > 想象增强智能体) & (想象增强智能体 > 构建 > 计划)
边界:单句独立、无前文实义指称时,保留原句代词——不得凭模型常识把"它们"补成"智能体"。投影应忠于原句词项(§1.0 自然语言投影原则)。
✅ 它们 > 能够:高效:使用 > 想象力 > ...
❌ 这些:智能体 > 能够:高效:使用 > 想象力 > ...("智能体"是模型补的,原句没有)
10. : 修饰内不嵌 > 命题或谓词动词
: 左侧只能由 词项 + : + & 构成。两类禁出现:① 显式 > 命题;② 谓词性动词(具备/结合/测试/实现/应对/赋予/提出/包括/称为/基于…)。
"V Y 的 Z" → 提升为独立 > 命题;"通过 + 动作" → 展开为因果/目的链。
❌ (通过:(赋予>想象力)) > 提升 > 效率
✅ S > 赋予 > 想象力 > 所以 > 提升 > 效率
✅ (S > 赋予 > 想象力) > 以便 > (S > 提升 > 效率)
手段-目的处理:
| 情形 | 形式 |
|---|---|
| 介词 + 名词短语(无动词) | (通过:X) : (...) 或 S > 通过 > X > V > O |
| 介词 + 动作,同主语 | 扁平因果链 S > V1 > O1 > 所以 > V2 > O2 |
| 介词 + 动作,不同主语/多步 | 拆两命题 (S1 > V1 > O1) > 以便 > (S2 > V2 > O2) |
例外:领域固定 V+O 短语作合成原子——当「V+O」在所属领域反复出现且语义稳定(如 RL 语境的"超越奖励"≈ beyond-reward),按约束 2 视为合成原子直接作 : 左修饰。三条同时满足才生效,否则回退提升:
- 领域文献内反复出现且语义稳定;
- 投影时不会被单独施加
:或>; - 拆为
V > O反而引入原句没有的递进感。
✅ 抽取 > 超越奖励:额外:信息(RL 领域固定属性短语)
❌ S > 具备:能力(临时动宾,应作 S > 具备 > 能力)
11. 处置/被动/结果补语/体貌不单独拆为 : 节点
- 处置(把/将/给):
(把:O)整体作宾域,或省略由 voice 门控。 - 被动(被/遭/受/由):
(被:V)前置修饰。 - 结果/趋向补语(到/成/为/住/起来/下去):与动词合并为原子(
推到/称为/整合为)。 - 体貌助词(了/过/着):并入动词或省略。
12. "地"与 : 不共存
状语助词"地"由 : 承担。✅ (高效:使用),❌ (高效地:使用)。
13. 方位/时间后缀并入前词
中/里/上/下/前/后/内/外/间/之间/之中/之时/之后/之前/时——整体作原子。
✅ 环境中、桌上、加入计划组件后,❌ 环境:中。
14. 状语-动词绑定 (scope:V)
副词修饰动词时,通过 : 左修饰绑到动词头上,整体作 > 中段:S > (scope:V) > O。这与汉语副词紧贴动词的语序同构。
| 类别 | 示例词 |
|---|---|
| 分布量化 | 均/都/全/各/皆/分别 |
| 频次 | 再次/反复/多次/一直 |
| 时体 | 已经/正在/曾经/即将 |
| 范围 | 一起/同时/单独/共同 |
| 程度 | 显著/明显/略微/大幅 |
✅ (A:表现) > (均:优于) > (B:表现)
✅ 团队 > (已经:发布) > 报告
✅ 他们 > (共同:探讨) > 方法
判定:(X:Y) 中 Y 必须是动词头,X 是状语。反过来 Y 是 NP 比较项就违规(约束 7:(优于:B) ❌);X 是动词在左作修饰也违规(约束 10:(具备:能力) ❌)。
冗余省略:当外层 scope 已蕴含 ∀(这两种X中 / 所有X中 / 每个X时),分布副词冗余可省:✅ (这两种:任务中) : ((A:表现) > 优于 > (B:表现))(保留"均"作 (均:优于) 也合法,更贴字面)。
❌ (均:(A:表现)) > 优于 > (B:表现)("均"非属性修饰)
❌ (A:表现) > 均 > 优于 > (B:表现)("均"非传递阶段)
四、> 中段(语言无关)
原句真实出现的谓词、连接词、介词、模态短语均可作中段,不翻译、不标准化。
| 情形 | 示例 |
|---|---|
| 单动词 | 他 > 吃 > 苹果 |
| 模态+动词 | 他 > 不得不 > 离开 |
| 介词 | 模型 > 基于 > 想象 |
| 模态+介词 | 算法 > 能在 > 规则完美环境中 > 利用 > 模型 |
| 致使 | 论文 > 促使 > (T > 认识到 > (...)) |
| 条件/让步 | (P) > 则 > (Q)、(P) > 尽管 > (Q) |
| 因果/目的 | (P) > 所以 > (Q)、(P) > 以便 > (Q) |
| 比较 | A > 胜过 > B |
方向:与能量/因果流一致(原因→结果,先→后)
反向连接词必须正向化:
| 反向(字面) | 正向(使用) |
|---|---|
| 由于 / 因为 | 所以 / 因此 |
| since / because | so / therefore |
| 鉴于 | 故 |
「由于 A,B」→ (A) > 所以 > (B)。正向词(所以/因此/从而/于是/故)保持原样;条件/让步/致使(则/尽管/导致/迫使)本身顺向。不做跨语言映射后再反转——写哪个连接词,按其能量流方向。
& 优先级陷阱
&| 优先级最低。A > B > C & D > E 默认按 (A > B > C) & (D > E) 解析——即 & 把整条 > 链切成两段。当作者实际想表达「A > B > C > X,X 是一个 & 子结构」时,必须把 & 整体封装:
❌ S > V > O & 例如 > (...)(误读为 (S > V > O) & (例如 > (...)),主干被切成两段)
✅ S > V > O > 例如 > (...)("例如"作 > 中段承接主干,& 留在 (...) 内)
自检:每写完一行 SVO,按优先级把 & 切位画一遍——如果 & 把本应成一体的 > 链切开,就是误读,加 ( ) 或改结构。
五、可读性
-
扁平优于嵌套:
复杂不完美环境中:效率优于(((复杂&不完美):环境):中):效率。 -
背景上提:场景与动作链无时序关系 →
X : (...);场景是阶段 →> 在 > X > 做 > Y。 -
同主语扁平
>链:从而/因此/所以/于是/以便 后主语承前省略时,不重复主语、不封装两端。主语切换 / 两端含&/ 多段嵌套链 → 回到( )封装。 ✅他 > 听完 > 报告 > 因此 > 决定 > 辞职✅(经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > (被迫:裁员)) -
连续
:按语义分组:三层以上必封装。其:发表的:两篇:论文→(其:发表):(两篇:相关论文)。 -
光动词省略:进行/做/实施/作出/开展 搭实义动词时省略。
进行:推理→推理。 -
"是" 作
>:X > 是 > Y。Y 含谓词动词时拆两命题。 -
比较连词裸作
>:修饰词(均/更/还/也)上提到主语或作独立>阶段,不粘连词。 -
同实体 canonical 一致:拆行/
&合取时同实体写法相同。 -
冗余
( )去掉:括号是结构标记不是装饰。优先级( )>:>>>&|,:>左结合——能用默认结合的就不加括号。五条冗余:- 单原子裹括号——
(苹果) → 苹果。 >链中的:子式——(A:B) > C→A:B > C。&|中的>或:子式——(A:B) & (C:D)→A:B & C:D;(A > B) & (C > D)→A > B & C > D。- 整条算式最外层括号——
((X:Y) > Z) → X:Y > Z。 - 连续
:链中无内部分簇时——几个:(显著:特征)→几个:显著:特征(左/右结合都回读为「几个显著的特征」)。
保留:①
&|在>/:内部需收缩辖域(... > (复杂 & 规则:不明确));②>命题作:右操作数(显然:(他>错了));③ 致使/认知动词嵌入命题;④ 连续:内有真实分簇((其:发表):(两篇:相关论文));⑤ 消歧。 - 单原子裹括号——
-
虚词、模态、否定保留:该/还/并/其/就/也、必须/可以/可能、不/未/非。
六、判定流程
- 句首扫描:跨句连接词 →
>首节点。 - 标原子词项:专名、术语、合成词、固定搭配。
- 识别主干:主语、主动词、宾语/补语。
- 组装:修饰
:;驱动/因果/条件>(反向连接词正向化);并列&/|。 - 重排:字面扭曲语义时允许(状语就近、并列动作
&、冗余承接词省略)。 - 封装辖域:
>两端是完整命题 →( ),同主语扁平链除外:右操作数是命题 →( )- 致使结构嵌入命题 →
( ) - 连续
:语义不符左结合 →( )
- 自检(约束 1-14):
- 命题关系未压成定语
- 未拆专名/合成词
- 致使嵌入命题已封装
- "的"/"地" 未与
:并存 - 跨句连接词作
>首节点 - 比较连词带状语时用
(adv:V),否则裸作> -
&仅连原句并列项;「并」按"换'和'测试"判定真并列还是方式-动作流 -
&切位检查:按优先级把&切一遍——若&把本应一体的>链切开,加( )或改结构 - 外指代词在上下文有实义指称时实义化;单句独立无指称则保留原句代词
-
:内不含>命题或谓词动词;副词修饰动词用(scope:V) - 处置/被动/结果补语/体貌未单独
: - 方位/时间后缀并入前词
- 分布量化副词(均/都):scope 蕴含 ∀ 时可省,否则
(scope:V) - 无中文标点;无轻动词冗余;同实体 canonical 一致
- 冗余括号已去:单原子、
>链中:子式、&|两侧:/>子式、最外层括号、连续:无分簇——按 §五五条逐一过
- 回读检验:按结合律读回应近似原句。
七、范例
| 输入 | 输出 |
|---|---|
| 显然,他错了。 | 显然 : (他 > 错了) |
| 经济下行导致消费萎缩,因此企业被迫裁员。 | (经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > 被迫:裁员) |
| 尽管下雨,比赛仍然继续。 | (天 > 下雨) > 尽管 > (比赛 > 仍然:继续) |
| 论文促使Tishby认识到理论可能涵盖广泛的过程。 | 论文 > 促使 > (Tishby > 认识到 > (理论 > 可能:涵盖 > 广泛:过程)) |
| 在AI辅助编程方面,Karpathy更偏向"协作式中间态"。 | AI辅助编程方面 : (Karpathy > 更:偏向 > 协作式中间态) |
| 现有框架不仅不适用,而且必须被立刻替换。 | 现有:框架 > (不:适用 & 必须:被:立刻:替换) |
| 为了方便起见,他直接跳过了验证。 | 为了:方便起见 : (他 > 直接:跳过 > 验证) |
| 为了提升安全性,他跳过了验证。 | (他 > 跳过 > 验证) > 以便 > (提升 > 安全性) |
| 它们能够学习阐释其内部模拟过程,从而使用即使不完美的环境动态模型。 | 它们 > 能够:学习 > 阐释 > 其:内部模拟过程 > 从而 > 使用 > 即使:不完美:环境动态模型 |
| 然而,真实世界复杂且规则不明确。 | 然而 > (真实世界 > (复杂 & 规则:不明确)) |
| 由于每步想象都会增加计算成本,智能体会在初期想象多步结果。 | (每步:想象 > 都会:增加 > 计算:成本) > 所以 > (智能体 > 初期:会 > 想象 > 多步结果) |
| 已有算法如AlphaGo能在规则完美的环境中利用内部模型进行推理和计划。 | 如:AlphaGo:已有算法 > 能在 > 规则完美环境中 > 利用 > 内部模型 > 进行 > (推理 & 计划) |
| DeepMind的最新博客介绍了其发表的两篇相关论文。 | DeepMind:最新博客 > 介绍 > (其:发表):(两篇:相关论文) |
| DeepMind通过赋予智能体想象力,提升了智能体在复杂环境中的效率。 | 复杂环境中 : (DeepMind > 赋予 > 智能体 > 想象力 > 所以 > 提升 > 智能体:效率) |
| 想象增强智能体的表现优于传统搜索方法。 | 想象增强智能体:表现 > 优于 > 传统:搜索方法 |
| 该架构被称为想象增强智能体,它通过学习利用模型预测随机构建计划。 | (该架构 > 被:称为 > 想象增强智能体) & (想象增强智能体 > 通过:(学习 > 利用 > 模型:预测) > 随机:构建 > 计划) |
| 它们能够高效地使用想象力,例如通过调整想象轨迹的数量,并从想象中抽取超越奖励的额外信息。 | 它们 > 能够:高效:使用 > 想象力 > 例如 > (通过 > 调整 > 想象:轨迹:数量 > 从 > 想象中 > 抽取 > 超越奖励:额外:信息) |
上一例同时演示了三个判定点:① 「并」读作方式-动作流走
>链而非&(约束 8);② 单句独立无前文实义指称时保留"它们"(约束 9);③ "超越奖励" 作 RL 领域固定 V+O 短语作合成原子(约束 10 例外)。
附:判定口诀
限定什么是什么 →
:能量/顺序流向 →>原句本就并列 →&/|整块要被外层作用 →( )能读回原句的就是对的
输出格式
每个输入单行输出 SVO 表达式,不加任何说明文字。
SVO语义检索的系统化方案
SVO 语义检索的系统化方案
本方案描述的是检索架构。SVO 算子定义、原子分类、拓扑模型、可读性建议等基础规范见
SVO语义矢量算子手册.md;大脑记忆四大机制的生物学原型见大脑记忆的核心机制.md。本文不重复上述内容,只在关键处回指。立场:入库拆解、门控字段、边权分化、基础激活等全部是工程需要。表达层的算式只需满足手册的硬性约束(§1.1),工程层单向从合法算式中抽取所需字段。任何为让检索工作而反向约束表达的规则,都不应出现在手册或指令文档中。
零、方案概要
一句话:检索 = 概念向量入口 + 类型化图扩散 + 门控与基础激活调节 + 能量阈值输出。
四步对应大脑扩散激活(大脑记忆的核心机制.md §四):
| 生物机制 | 工程实现 |
|---|---|
| 入口激活(线索点亮节点) | 查询 → SVO 解析出概念簇 → 向量索引 top-K → 初始能量 |
| 沿边扩散(能量按边权流动) | 类型化有向图上并行 BFS,边权按 : / > / 连词类分化 |
| 激活汇聚叠加(多线索交汇) | 多源能量在公共邻居上求和;门控冲突乘惩罚;扇出归一化 |
| 阈值触发(累积高的浮现) | threshold 过滤 + conclu / info / output 三层输出 |
为什么是扩散模型(这是整份方案的设计根基):
- 语义连续交给向量(入口层)——分布式表征让"相似即相近",对应脑的多通道编码。
- 结构离散交给图(扩散层)——SVO 算子明确告诉工程层哪里是命题、哪里是修饰、哪里是逻辑连接,对应脑的海马体索引。
- 冲突信号用能量衰减而非硬过滤——极性/量词/模态/连词的不匹配只是"乘以一个 < 1 的系数",对应脑的神经调质调节。多入口交汇时,噪声互相抵消,信号互相增强;这是模糊检索的本质,不是 bug。
SVO 二元本体(SVO语义矢量算子手册.md §1.2)在图上的同构:
- 属性本体
:→ 概念簇内部结构 + 修饰边(scope → proposition) - 力本体
>→ 动作命题(S→V→O)+ 逻辑命题(前件→连词→后件)+ 言说引用
属性和力在本体上是两类基本实体,在图上就是两类基本结构——向量空间主要承载属性(静态标签),图结构主要承载力(动态流向)。
一、相关性分层
检索相关性分六层,由图中不同机制承担。"每层一个专用索引"被扩散架构收敛为"一张图 + 一个向量索引 + 类型化边":
| 层级 | 含义 | 承担机制 |
|---|---|---|
| L1 概念相关 | 词项语义相似("汽车"→"SUV") | 概念向量索引(唯一入口) |
| L2 命题相关 | 主谓宾整体对齐 | 入口概念经槽位边 1 跳激活动作命题 |
| L3 作用域相关 | 话题/身份/范围/句子级副词匹配 | scope/sentence_mod 概念经修饰边激活命题 |
| L4 推导相关 | 条件/让步/因果链前后件匹配 | 扩散至逻辑命题 + 沿逻辑前件边/后件边双向展开 |
| L5 蕴含相关 | 否定/量词/模态区分 | 节点门控属性能量衰减(软约束) |
| L6 结构类比 | 骨架相同实体不同 | 扩散的自然副产物(同构命题图距近) |
奥卡姆式收敛:L2–L6 全部交给同一张图的类型化扩散;只有 L1 保留独立的向量索引。相比"倒排索引 + 结构哈希 + 前后件向量 + …"的多索引方案,扩散模型用"图拓扑本身承载结构语义"替代了多数专用索引。
二、入库:从 SVO 表达式到类型化图谱
2.1 三类原子节点(长期记忆的分布式单元)
SVO 表达式不作为整体被索引。解析后分解为三类节点,对应大脑皮层的三种模式:
| 节点 | SVO 形式 | 皮层类比 |
|---|---|---|
| 概念簇(concept) | 红:苹果、(前:负责人):Karpathy、(AI:方面)、显然 |
分布式表征的最小单元(类 V1–IT 的层次特征) |
| 动作命题(action_proposition) | S > V > O(含空补语/引用宾语) |
一条"事件索引"——主谓宾是海马体打包的最小共激活单元 |
| 逻辑命题(logical_proposition) | 前件 > 连词 > 后件 |
两条事件索引之间的"关系索引" |
概念簇的 role(按手册 §1.2.1 的属性本体分类,入库自动判别):
entity:专有名词、人物、机构、产品concept:普通概念、抽象名词、偏正复合词scope:话题/身份/背景/范围(典型形式(AI:方面)、(前:负责人))sentence_mod:句子级副词与情态标记(显然、不幸:的是、祈使、疑问)
role 用于按角色分流召回(§4.3),不改变图结构。
致使/条件/让步结构的嵌入命题(手册 §1.1-4)被显式封装为独立命题节点,> 连接词变为逻辑命题的 connector。例如:
论文 > 促使 > (Tishby > 认识到 > (理论 > (可能:涵盖) > (广泛:过程)))
入库为:
P1 = Tishby > 认识到 > P2 (action; object_ref=P2)
P2 = 理论 > (可能:涵盖) > (广泛:过程) (action)
L1 = 论文 > 促使 > P1 (logical; connector_class=致使; antecedent="论文", consequent=P1)
2.2 三类引用关系边(海马体索引的具象化)
原子之间通过 PropRef 引用关系相连,对应图中三类有权有向边:
| ref_type | 典型 SVO 形式 | 图中边类型 | 默认基础权重 |
|---|---|---|---|
slot |
S > V > O 的 S、O 槽位 |
槽位边 concept ⇄ action | 0.8 |
utterance |
K > 表示 > (P)、认知指向类 |
言说引用边 action → action | 0.5 |
modifier |
显然 : (P)、(AI:方面) : (P) |
修饰边 scope/sent_mod → proposition | 0.6 |
logical |
(P1) > 则 > (P2) |
逻辑前件边 / 逻辑后件边 | 按连词类分化(§3.2) |
边的方向 = 能量流动方向(与 > 本体定义一致):条件 → 结论、原因 → 结果、前件 → 后件、说话者 → 言说内容。
2.3 节点门控属性(软过滤调节器 = 神经调质)
门控对应神经调质(多巴胺/去甲肾上腺素/乙酰胆碱)——不改变拓扑,只调节能量传递。
| 字段 | 取值 | 作用层 |
|---|---|---|
polarity |
+1 / −1 | L5 否定 |
quantifier |
所有 / 某 / 没有 / NULL | L5 量词 |
modality |
必须 / 可能 / NULL | L5 模态 |
voice |
active / passive / NULL | L2 语态一致性 |
connector_class |
条件 / 让步 / 因果 / 推论 / 目的 / 致使 / 认知 / 比较 / 言说(仅逻辑命题) | L4 连词类型 |
门控冲突惩罚:扩散时若源节点与目标节点的门控字段均非 NULL 且不相等,该条边传递的能量乘 gate_penalty(默认 0.1)。NULL 视为"未指定",不触发惩罚。
voice 字段的关键作用:把"被"从概念簇的修饰中抽离。A > 发布 > B(active)与 B > 被:发布(passive)应识别为同一事件的两种语态,入库管线自动抽取 被 → voice=passive,而不是让"被"成为概念簇的一部分污染嵌入空间。
2.4 边权重:按类型与连词类分化
连词权重按类别而非按具体词(条件类涵盖"则/否则/除非/当/只有",作者写哪个都归同一类):
| 连词类 | 默认权重 | 代表词 |
|---|---|---|
| 因果类 | 0.80 | 导致、使得、造成、引起、以致 |
| 致使类 | 0.75 | 促使、迫使、让、令、使、催生 |
| 条件类 | 0.70 | 则、否则、除非、当、只有 |
| 推论类 | 0.70 | 因此、所以、从而、故而、进而 |
| 认知指向 | 0.60 | 表示、认为、知道、察觉、发现 |
| 言说引导 | 0.60 | 说、告知、声明、问、答 |
| 比较类 | 0.60 | 比、胜过、不如、堪比、逊于 |
| 目的类 | 0.50 | 以便、为了、旨在、力求 |
| 让步类 | 0.30 | 尽管、虽然、即使、纵然(反预期,能量传递弱) |
归类由入库管线完成:作者按原句写任意连接词,管线查表归入九类之一。新词加入对应类别,不修改表达层规则。
2.5 基础激活 B_i(ACT-R,使用频率与近因)
借鉴 ACT-R 的 Base-Level Activation(大脑记忆的核心机制.md §5.2),每个节点维护:
$$ B_i = \ln!\left(\sum_{k=1}^{n} t_k^{-d}\right) $$
其中 t_k 是节点第 k 次被命中时距今的秒数,d 默认 0.5。
- 频繁被命中的节点 → B_i 高 → 同样线索下更易被激活
- 久未命中 → t_k 大 → B_i 衰减 → "想不起来"
最终节点能量(混合扩散能量 a_i 与基础激活 B_i):
E_i = a_i + α · softplus(B_i) α = 0.1(默认)
α 不宜过大,否则热门节点永远被召回(priming 失控)。仅 conclu 排序用 E_i,扩散过程本身仍用 a_i,避免基础激活层层累乘。
2.6 源表达式索引(海马体快照)
每个原子节点都挂一个 source_expr_id,回指完整的 SVO 算式 + 自然语言原句 + 文档位置。这层对应海马体保留的"共激活指针"——多次命中时,大脑通过索引同步回放所有相关皮层。工程上用它做:
conclu聚合:一条源表达式的总能量 = 其内部激活原子的能量之和- 可解释性:每一个返回单元都能指回原句与文档行号
- 重巩固(§6):命中的源表达式整体 B 加一次
三、概念向量索引(唯一独立索引 = 分布式表征)
扩散起点。查询解析得到的每个概念簇,在此索引上取 top-K 作为图入口。
3.1 编码策略:两阶段
阶段一(零训练,立即可用):加性组合
v(concept) = v(核心词) + Σ α^depth · v(修饰词_i)
α = 0.8
深度按 SVO 绑定的嵌套层级定义:最外层核心词 depth=0,每多一层 : 深度 +1。
阶段二(微调,精度提升):BGE-base / Qwen3-Embedding 主干 + 按 role 训练 4 个 LoRA 适配器(entity/concept/scope/sentence_mod),不强行统一编码空间。
训练对比对(阶段二):
- 同指正例:
K氏/Karpathy - 属性敏感正例:
(资深:工程师):李、(高级:工程师):李 - 混淆负例:同修饰不同核心词(
红:苹果vs红:汽车) - 属性翻转负例:
(前:CEO)vs(现任:CEO) - role 混淆负例:
(AI:方面)scope vsAIentity
3.2 按 role 分流召回
在一个大向量库中用 role metadata 过滤子集召回:
- 查询的实体词 → entity + concept 子库
- 查询的场景词 → scope 子库
- 查询的情态词 → sentence_mod 子库
避免 (AI:方面) 作为 scope 被当成 AI 实体召回(它们表达不同的本体角色)。
3.3 属性 / 力双子空间(可选,阶段二上线)
手册 §1.2 的二元本体建议显式投影到两个子空间(同一主干 + 两个投影头):
- 属性子空间:编码概念簇、scope、sentence_mod —— 在线扩散仅用此子空间,因为入口是概念簇
- 力子空间:编码动作命题、逻辑命题 —— 离线诊断、类比挖掘、未来端到端重排
两个子空间独立归一化,避免属性向量被力向量拉偏。
四、扩散激活检索流程
4.1 完整流程(与大脑四步严格对应)
查询(自然语言或 SVO 算式)
│
① 入口激活 ─ SVO 解析 → 概念簇集合
│ ├─ 解析成功:每个概念簇在向量索引取 top-K,初始 a_i = 余弦相似度
│ └─ 解析失败:整句向量化作单入口,降级模式(保证服务可用)
│
② 沿边扩散 ─ 并行 BFS,最多 max_hops 跳
│ ├─ 每一跳按边权衰减
│ ├─ 节点门控软过滤(冲突 × gate_penalty)
│ ├─ 扇出归一化(fan effect 防 hub 吞能)
│ └─ 全局距离衰减 global_decay
│
③ 激活汇聚叠加 ─ 多源能量在公共邻居上求和
│ └─ 噪声互相抵消、信号互相增强 = 模糊检索
│
④ 阈值触发 ─ E_i = a_i + α·softplus(B_i) ≥ threshold
├─ conclu:按 source_expr 聚合能量,top-M 返回
├─ info:top-N 原子,带能量与命中路径
└─ output:沿逻辑链前后展开至 logic_chain_max_depth
4.2 能量传播公式
每一跳:
a_j(t+1) = Σ_i [ a_i(t) · w_type(i→j) · gate(i,j) · fan_norm(i) ] · global_decay
其中:
w_type(i→j):边类型基础权重,逻辑边用连词类分化权重(§2.4)gate(i,j) = 1.0若所有非 NULL 门控字段一致;冲突则gate_penalty(默认 0.1)fan_norm(i) = 1/√fan_out(i)当fan_out(i) > fan_trigger,否则 1.0global_decay = 0.7
可行性自检(这些常数必须满足能量能跨 2 跳存活):
初始能量 ≈ 0.9(cosine)
1 跳后 ≈ 0.9 × 0.8 × 1.0 × 0.7 ≈ 0.50 > threshold=0.05 ✓
2 跳后 ≈ 0.50 × 0.7 × 1.0 × 0.7 ≈ 0.25 > threshold ✓
门控冲突 1 跳 ≈ 0.9 × 0.8 × 0.1 × 0.7 ≈ 0.05 勉强达阈 ✓(正符合"冲突项压到阈值附近"的设计)
让步类 1 跳 ≈ 0.9 × 0.3 × 1.0 × 0.7 ≈ 0.19 低但存活 ✓
最终排序能量(§2.5):E_i = a_i + 0.1 · softplus(B_i)。
4.3 扇出归一化(fan effect)
ACT-R 的扇出效应:高出度节点("AI"、"机器学习"、"深度学习")的能量均摊到所有出边。
fan_norm(i) = 1/√fan_out(i) 仅当 fan_out(i) > fan_trigger=20 触发。低出度节点不惩罚,避免过早衰减冷门节点。
监控指标:top-20 最高出度节点在 conclu 占总能量比例应 < 30%,否则提高归一化强度或降低 fan_trigger。
4.4 门控冲突的精细化(阶段二)
默认所有冲突乘同一个 gate_penalty=0.1。阶段二按冲突类型分化:
| 冲突类型 | 默认惩罚 | 理由 |
|---|---|---|
| polarity 翻转(肯定 vs 否定) | 0.05 | 最强信号,近乎反义 |
| quantifier 不一致(所有 vs 某 vs 没有) | 0.20 | 弱于极性但确实改变真值 |
| modality 不一致(必须 vs 可能) | 0.40 | 最弱,常表示近似信息 |
| voice 不一致(active vs passive) | 1.00 | 不扣分——同一事件的两种语态 |
| connector_class 不一致 | 0.25 | 已由边权分化承担一部分 |
4.5 默认参数(写入 config.yaml)
activation:
entry_top_k: 5 # 每入口概念召回候选数
max_hops: 2 # 最大扩散跳数
global_decay: 0.7 # 每跳全局距离衰减
threshold: 0.05 # 节点最低保留能量
gate_penalty: 0.10 # 默认冲突惩罚(阶段一)
fan_trigger: 20 # 出度超此值启用 fan 归一化
fan_normalizer: sqrt # sqrt / linear / none
base_activation_alpha: 0.10 # 基础激活混合系数
max_visited_nodes: 10000 # 防退化上限
edge_weight:
slot: 0.80
utterance: 0.50
modifier: 0.60
logical:
因果: 0.80
致使: 0.75
条件: 0.70
推论: 0.70
认知: 0.60
言说: 0.60
比较: 0.60
目的: 0.50
让步: 0.30
output:
conclu_top_m: 10 # 结论层表达式数
info_top_n: 30 # 证据层原子数
logic_chain_max_depth: 4 # 逻辑链展开深度
4.6 三层输出契约(向下兼容现有 BuildContextFragments)
def SpreadingActivationSearch(query: str) -> tuple[str, str, str]:
"""返回 (conclu, info, output)"""
- conclu(结论层):top-M 源表达式(SVO canonical + 自然语言回译),按聚合能量排序。聚合能量 = 该源表达式内部被激活原子的能量之和,带长度惩罚,去重。LLM 的主要生成依据。
- info(证据层):top-N 激活原子,每条带
(atom, energy, entry_sources, hop_path)。用于调试、人工排错、LLM 定位命中点。 - output(推导层):扫描激活到的逻辑命题,沿逻辑前件/后件边前后向各展开至
logic_chain_max_depth跳——即使链上节点未达阈值也补齐,保证 LLM 看到完整因果/条件链。对应大脑扩散激活触发后整段情境快照被完整回放。
4.7 典型扩散场景
| 查询 | 扩散行为 | 结果 |
|---|---|---|
(模型>开源) > 则 > (?) |
入口激活 模型、开源 → 槽位边到命题 模型>开源 → 逻辑前件边 |
connector_class=条件 的后件能量最高 |
所有:学生 > 通过 > 考试 |
候选 某:学生 > 通过 > 考试 因 quantifier 冲突能量 × 0.2 |
量词匹配命题排前 |
现有:框架 > 适用 |
候选 现有:框架 > 不:适用 因 polarity 冲突 × 0.05 |
反义命题降至阈值以下 |
(AI:方面) : (K > 偏向 > X) |
scope 入口经修饰边激活命题;其他域命题拿不到此路径能量 | 域外相关命题降权 |
A 促使 B 认识到 C 类比 |
结构同构命题在图中拓扑接近,扩散自然汇聚 | L6 类比无需专门结构哈希 |
谁说 AGI 还要十年 |
AGI、十年之遥 入口 → 动作命题 → utterance 反向边 |
言说者节点浮现 |
五、数据模型
-- 概念簇(唯一向量索引)
CREATE TABLE concept (
id BIGSERIAL PRIMARY KEY,
canonical TEXT NOT NULL, -- (前:负责人):Karpathy
core_word TEXT NOT NULL, -- Karpathy
modifiers TEXT[] NOT NULL, -- [前, 负责人]
role VARCHAR(16) NOT NULL, -- entity|concept|scope|sentence_mod
vector VECTOR(768),
base_activation FLOAT NOT NULL DEFAULT 0, -- B_i
last_hits_ts TIMESTAMPTZ[] -- 最近 N 次命中时戳(环形缓冲,计算 B_i 用)
);
CREATE INDEX idx_concept_role ON concept(role);
-- 动作命题(图节点)
CREATE TABLE action_proposition (
id BIGSERIAL PRIMARY KEY,
subject_id BIGINT REFERENCES concept(id),
verb TEXT NOT NULL,
object_id BIGINT REFERENCES concept(id), -- NULL 时宾语是 PropRef
object_ref BIGINT, -- PropRef 指向另一命题
polarity SMALLINT NOT NULL DEFAULT 1, -- 门控
modality VARCHAR(16), -- 门控
quantifier VARCHAR(16), -- 门控
voice VARCHAR(8) DEFAULT 'active', -- 门控:active/passive
base_activation FLOAT NOT NULL DEFAULT 0,
last_hits_ts TIMESTAMPTZ[],
source_expr_id BIGINT NOT NULL
);
-- 逻辑命题(图节点)
CREATE TABLE logical_proposition (
id BIGSERIAL PRIMARY KEY,
antecedent_id BIGINT NOT NULL REFERENCES action_proposition(id),
connector_raw TEXT NOT NULL, -- 原句连接词(则/尽管/由于/从而迫使/...)
connector_class VARCHAR(16) NOT NULL, -- 九类之一:条件/让步/因果/推论/目的/致使/认知/比较/言说
consequent_id BIGINT NOT NULL REFERENCES action_proposition(id),
base_activation FLOAT NOT NULL DEFAULT 0,
last_hits_ts TIMESTAMPTZ[],
source_expr_id BIGINT NOT NULL
);
CREATE INDEX idx_logical_class ON logical_proposition(connector_class);
-- 引用关系(图边表;双向索引即邻接结构)
CREATE TABLE prop_ref (
id BIGSERIAL PRIMARY KEY,
source_type VARCHAR(16) NOT NULL, -- action|logical|concept
source_id BIGINT NOT NULL,
target_type VARCHAR(16) NOT NULL, -- action|logical|concept
target_id BIGINT NOT NULL,
ref_type VARCHAR(16) NOT NULL, -- slot|utterance|modifier|logical_ante|logical_cons
weight_override FLOAT -- 阶段三学习权重,NULL 用类型默认
);
CREATE INDEX idx_ref_target ON prop_ref(target_type, target_id, ref_type);
CREATE INDEX idx_ref_source ON prop_ref(source_type, source_id, ref_type);
-- 源表达式(conclu 聚合回溯 = 海马体快照)
CREATE TABLE source_expression (
id BIGSERIAL PRIMARY KEY,
canonical TEXT NOT NULL, -- SVO canonical
natural TEXT NOT NULL, -- 自然语言原句
doc_id BIGINT,
line_no INT,
base_activation FLOAT NOT NULL DEFAULT 0,
last_hits_ts TIMESTAMPTZ[]
);
关键设计:
concept向量独立存储在 Qdrant / Milvus,concept.id与向量 metadata 互相映射。- 内存图从 Postgres 的
prop_ref双向索引加载为numpy / scipy稀疏邻接,百万节点 ≈ 500 MB。 base_activation与last_hits_ts是可巩固字段:命中时更新(§6)。weight_override留给阶段三的端到端边权学习;阶段一、二为 NULL 不启用。
六、记忆巩固:离线重放与再巩固
这一节是本方案相对旧版的核心增量——把大脑记忆"快照 → 回放 → 巩固"(大脑记忆的核心机制.md §三、§5.4)显式搬入工程层。
6.1 海马体 ↔ 皮层:两层记忆组织
- 海马体层(episodic,短期高塑性):
source_expression+ 原子级base_activation。每次入库/命中都快速修改。 - 皮层层(semantic,长期稳定):图结构(节点 + 边)+ 稳定化的边权
weight_override。只在离线巩固时修改。
类比 CLS(Complementary Learning Systems, 大脑记忆的核心机制.md §5.4):
短期系统承担单次事件的快速记录,长期系统从反复回放中提取统计规律。
6.2 在线命中即重巩固(reconsolidation)
每次查询命中后,对命中的源表达式与其内部原子执行:
def on_hit(node, now):
node.last_hits_ts.append(now)
if len(node.last_hits_ts) > MAX_HITS_BUFFER:
node.last_hits_ts.pop(0)
node.base_activation = log_sum_power_decay(node.last_hits_ts, d=0.5)
效应:
- 频繁被查的节点 B 上升 → 下次更易被召回(priming)
- 久未命中的节点 B 自然衰减 → 不删除,只"想不起来"
- 每次命中都是一次学习,符合
大脑记忆的核心机制.md§3.2 的 reconsolidation
6.3 离线巩固任务(类慢波睡眠)
定时任务(每日/每周)执行:
- 扫描高频共现边:过去 N 天查询中,哪两个节点经常同时被高能量激活 → 记录为候选赫布强化对。
- 赫布更新
weight_override:Δw_ij = η · a_i · a_j · μ η = 0.01(学习率) μ ∈ [0.5, 2.0] 按情绪/显著性(见 §6.4) - 突触稳态归一化:每个节点所有出边权重之和若超过
homeostasis_cap(默认 N × base_weight),整体等比缩放——防止某些节点所有出边无限增强。 - 提取规律到皮层层:如果
A → B → C的路径在多次查询中都被高能量激活,可增加A → C的快捷边(学习到的规律性连接,阶段三才启用)。
这对应脑的慢波睡眠回放(大脑记忆的核心机制.md §3.3, §6.2):
Experience replay(RL)、多 epoch 训练都是对应的工程机制。
6.4 情绪 / 显著性门控(可选)
不是所有命中都值得长期巩固。可引入 salience 信号作为神经调质 μ:
| 信号 | μ 乘数 | 说明 |
|---|---|---|
| 用户显式反馈(点赞 / 采用) | 2.0 | 最强显著性 |
| LLM 生成时引用 | 1.5 | 下游任务确认有用 |
| 单次查询中能量异常高(> μ+2σ) | 1.2 | 明确命中 |
| 普通命中 | 1.0 | 基线 |
| 疑似噪声召回(能量极低) | 0.5 | 弱化,防止扩散噪声被固化 |
μ 对应多巴胺(预测奖赏)、去甲肾上腺素(惊讶)、乙酰胆碱(专注)的联合调节(大脑记忆的核心机制.md §2.3)。
七、核心挑战与对策
7.1 SVO 解析器稳定性(最大风险点)
扩散架构对解析器依赖比旧架构更重——解析结果直接决定入口概念集合。
行动指引:
- 解析一致率基准:500 句自然语言 × 10 个人工改写(同语义),统计结构指纹一致率。
- 一致率门槛:< 85% 不得投入生产。
- 双轨降级:解析成功 → 多入口;解析失败 → 整句向量化单入口(§4.1)。
- 重点稳定"作用域 vs 条件"识别:中文"在 X 的情况下"歧义最高,必须用上下文特征分类,不能靠正则。
- 解析器版本化:每次解析器升级重建全量
concept向量与prop_ref;灰度期保留两份索引。
7.2 编码器敏感度要求
向量层需区分:
- 角色翻转:
A > 杀 > BvsB > 杀 > A(由命题节点区分,向量只需区分A、B) - 同义动作:
喜欢vs爱(需向量区分;主要由人工对比对训练) - 作用域翻转:
(战时)vs(和平)(scope 子索引)
注意:极性翻转、连词翻转主要由门控 + 边权分化承担,向量辅助。不要试图让向量承担全部语义区分——那是旧架构的技术债。
7.3 参数校准(扩散架构特有)
gate_penalty × global_decay需过threshold:0.1 × 0.7 × 1.0 = 0.07 勉强过 0.05。必须用标注集校准。- 连词权重相对值:条件 0.7 vs 让步 0.3 的比值直接决定反预期召回率。
- 扇出归一化触发点:
fan_trigger=20为经验初值,需监控 Hub 能量占比。 - 基础激活混合系数 α:α 过大 → 热门节点永远浮现(priming 失控);α 过小 → 无 recency/frequency 效应。建议 [0.05, 0.2]。
方法:阶段一 100 条 (query, expected) 标注 + 脚本化 grid search;阶段二 500+ 对监督学习。
7.4 Hub 能量流失
中心节点("AI"、"模型"、"深度学习")因入度/出度极高,容易吞掉全图能量或把能量分散到无关节点。
对策分层:
- 扇出归一化(§4.3):已在公式内置
- 阶段二边权学习:度越高的节点,出边基础权重按
1/log(fan_out)再衰减 - 阶段三 edge attention:用 GNN 学习上下文相关的边权
八、工程落地路径
8.1 基础设施选型
| 组件 | 选型 | 理由 |
|---|---|---|
| 概念向量索引 | Qdrant / Milvus / MindStore | 支持按 metadata(role)过滤 |
| 关系表 & 图边表 | Postgres | 外键一致,prop_ref 双向索引即邻接结构 |
| 内存图 | numpy / scipy sparse | 百万节点 ≈ 500 MB |
| 编码器 | BGE-base / Qwen3-Embedding + LoRA | 中文效果好、微调成本低;复用本仓库已有 checkpoint |
| 扩散算法 | 纯 Python 模块 | 无需新服务;热点可异步 C 扩展 |
| 离线巩固 | Airflow / 定时脚本 | 每日/每周跑 §6.3 |
废弃基础设施(相对旧四层索引):
- Elasticsearch 倒排 → 槽位边扩散替代
- Redis 结构哈希 → 扩散自然实现 L6 类比
- pgvector 的前后件向量列 → 逻辑命题作为图节点,不再独立向量化
8.2 三阶段演进
阶段一 MVP(2–4 周)
- 跑通 SVO 解析 → 多入口 → 类型化边扩散 → 三层输出
- 概念编码用加性组合(零训练)
- 参数从 §4.5 初值起手调;100 条标注做 grid search 校准
threshold/gate_penalty - 基础激活 B 字段保留但不在排序生效(α = 0)
- 目标:验证扩散能量排序能替代旧架构的学习排序
阶段二 精度提升(1–2 月)
- 编码器微调:概念按 role 训练 4 个 LoRA
- 扇出归一化从
sqrt改为按边类型 + 节点度数的联合学习权重 - 连词权重从手调改为小规模监督学习(500+ 对)
- 门控系数按冲突类型细化(§4.4)
- 基础激活上线:α = 0.1,MAX_HITS_BUFFER = 50
- 开启 reconsolidation(§6.2)
- 目标:L3/L4 召回率显著提升,Hub 能量占比 < 30%
阶段三 持续优化
- 离线巩固任务上线(§6.3),启用
weight_override与学习到的快捷边 - 全图 edge attention(类 GNN),端到端学习边权
- 属性 / 力双子空间投影上线(在线仍只用属性子空间)
- 显著性门控(§6.4):用户反馈回流强化信号
- 多模态入口:图片 / 音频作为入口激活源
- 激活缓存:高频查询启动效应(priming)
8.3 评估指标
SVO 固有指标: 角色准确率 / 极性准确率 / 量词一致率 / 作用域覆盖率 / 嵌套深度保持率 / 连词一致率 / 逻辑链完整率。
扩散架构新增指标:
| 指标 | 定义 | 目标 |
|---|---|---|
| 扩散覆盖率 | 目标命题在 2 跳内被激活到的比例 | > 90% |
| 能量信噪比 | top-K 结果能量均值 / 第 K+1 位能量 | > 2.0 |
| Hub 能量占比 | top-20 最高出度节点能量 / 总能量 | < 30% |
| 门控过滤准确率 | 冲突门控命题被压至阈值以下的比例 | > 85% |
| 基础激活效应 | priming 命中在同一会话内耗时下降比例 | 阶段二 > 20% |
| 巩固稳定性 | 离线巩固前后 top-10 变化率 | < 15%(避免震荡) |
九、操作快查表
| 检索需求 | 扩散实现 |
|---|---|
| 含特定实体的表达式 | 实体词为入口概念激活 |
| 含特定话题 / 场景 | scope 概念为入口 + 修饰边 1 跳 |
| 含句子级态度词("显然") | sentence_mod 概念为入口 |
| 角色精确匹配动作命题 | 入口 + 槽位边 1 跳 |
| 结构类比动作命题 | 多入口扩散自然实现 |
| 语义模糊相似动作命题 | 入口 top-K + 扩散 2 跳 |
| "如果 X 则…"推导 | X 入口 → 激活逻辑命题 → 后件边,connector_class=条件 权重最高 |
| "…导致 X"推导 | X 入口反向沿前件边,connector_class=因果 权重最高 |
| 特定连词推导链 | 连词类别权重直接分化,无需额外过滤 |
| 避免召回反义命题 | polarity 门控 × 0.05 衰减 |
| 避免召回不同连词 | 条件 0.7 vs 让步 0.3 的权重差异自动压制 |
| 追溯"谁说了这句话" | 沿 utterance 反向边扩散 |
| 展开"他说了什么" | 沿 utterance 正向边扩散 |
| 追溯推导前提 | 沿逻辑前件边反向 / output 层逻辑链补齐 |
| 展开推导后果 | 沿逻辑后件边正向扩散 |
| 热门词不要永远浮现 | 扇出归一化 + α 限制基础激活影响 |
| 频繁被查的信息优先 | 基础激活 B_i 上升 + α·softplus(B) 参与排序 |
| 区分同事件的主动/被动语态 | voice 门控不扣分,聚合在同一命题 |
十、参考
- SVO 算子规范与原子定义:
Agent/svo/SVO语义矢量算子手册.md - 生物学原型与设计灵感:
Agent/svo/大脑记忆的核心机制.md - SVO 表达层输入规范:
Agent/svo/SVO表达指令.md - 现有检索接口(待对接):
Auto/gen_qdrant_dataset.py中的BuildContextFragments
SVO语义矢量算子手册
SVO 语义矢量算子手册
一、核心哲学
1.0 基本原则:自然语言投影(最高约束)
SVO 是自然语言的格式化投影。 它不是独立于自然语言的形式化系统——而是给自然语言添加最少符号,把隐含结构显式化。语序、词项、修饰关系尽量保留原句;只在歧义、辖域、命题关系等必须显式化的地方引入符号。
合法性检验的唯一标准:算式按结合律回读为自然语言,应与原句语义接近。读不回去的算式就是错的,即使它通过了所有形式规则。
本手册 §二 至 §七 的所有具体规则都是"辅助工具",不是"凌驾检验"。当具体规则与原句表达冲突时,除硬性约束之外,一律以原句为准。
1.1 硬性约束
违反任一条即为错解。其余全部"规则"都是可读性建议。
- 命题间关系不可压成定语——条件、让步、因果、推论、目的、致使若连接两个命题,必须用
>+ 连接词,不可作属性。 - 专有名词、行业术语、固定搭配、高频合成词不拆——
深度强化学习、想象力编码器、不能、没有、无法、能够等是原子词项。 - 歧义必须显式封装——当 SVO 写法引入原句没有的歧义时,用
( )明示辖域。逻辑流两端是完整命题时必须封装。 - 致使结构的嵌入命题必须封装——致使类连接词(使/让/令/迫使/促使/导致/驱使/叫)后若跟带自身主语的命题,该命题必须整体封装。
:与"的"不共存——:承担"的"("'s"、"of"、"の")的修饰语义,两者不并存。- 跨句连接词不作句内
:——然而/因此/从而/此外/总之 等承接上下文的连接词不能用:绑本句。 - 自然语言标点不是 SVO 分隔符——中文逗号、分号、句号等不得出现在算式中。
1.2 二元语义物理学(建模工具)
在"自然语言投影"原则之下,SVO 提供一个二元本体建模工具:把语言结构归入两类基本实体——属性、力。这是思考工具,不是检验工具。
1.2.1 属性 (Attribute)
世界中的每一个事物都是属性的叠加。"红苹果"不是"红"和"苹果"的外部关联,而是"红"这个属性坍缩到"苹果"上形成的新复合体。话题、身份、范围、背景、句子级副词本质上都是属性——它们限定一个核心(谓词、命题或实体)使其成为更特定的东西。
- "在AI方面"限定"偏向"这个动作 → 属性
- "作为前负责人"限定"Karpathy"这个实体 → 属性
- "显然"限定"他错了"这个命题 → 属性
属性通过引力算子 : 坍缩到核心。
1.2.2 力 (Force)
世界中的每一次变化都是能量从一点流向另一点。物理动作是力(施事→受事),逻辑推导也是力(前件→后件)。致使、条件、让步、因果、推论——它们在本体上没有差别,都是一个命题释放能量驱动另一个命题成立。
- "论文促使 Tishby 认识到 X" → 物理-心理动作力
- "如果 P 则 Q" → 条件力
- "尽管 P 但 Q" → 反预期力
- "A 导致 B" → 因果力
力通过驱动算子 > 释放。力的方向由中段的连接词项(动词或逻辑连词)明示。
1.2.3 并联 (Juxtaposition)
当多个项在原句里并列出现(共存或二者择一)时,通过 & / | 连接。判定:把 & 替换回"和/与/并"、| 替换回"或",读起来与原句一致即可。形式异质但原句本就并列的也合法。
二、三算子定义
-
:绑定 (Bind) —— 属性本体- 逻辑定义:左侧为右侧的限定。右侧可以是词项或封装域。
- 涵盖语法成分:定语、状语、程度词、否定词、模态词、被动标记、量化词、话题、身份、范围、背景、句子级副词。
-
>驱动 (Vector) —— 力本体- 逻辑定义:能量从左向右传递。中段为连接词项(动词/介词/逻辑连词)。
- 涵盖语法成分:主谓宾、动宾、致使、条件、让步、因果、推论、认知指向、语气(疑问、祈使、感叹)、比较。
-
&/|合取 / 析取 —— 并联本体- 逻辑定义:并联共存 / 二者择一。
- 涵盖语法成分:并列结构、选择关系。
辅助符号:( ) 用于逻辑封装,将一组算式打包成一个原子化的域 (Domain)。域在外层算子眼中等价于一个词项。
算式合法符号只有 : > & | ( )。中文逗号、分号、句号等自然语言标点不是 SVO 算子。
三、运算规则
3.1 绑定的方向性
公理 I:: 一律左修饰右。A : B 意味着 A 是 B 的限定,结果具有 B 的本体类型。
红 : 苹果是一个苹果(不是一种红)。不 : 适用是一种适用的否定态(不是一种不)。显然 : (他 > 错了)是一个命题("他错了"的显然态)。
3.2 绑定的递归性与层级性
公理 II:: 的左右操作数都可以是封装域。
(A : B) : C 左侧复合属性 → 限定 C
A : (B > C) 简单属性 → 限定一整个命题
(A : B) : (C > D) 复合属性 → 限定一整个命题
链式绑定从左到右逐级坍缩:
A : B : C = (A : B) : C
3.3 词项粒度与固定搭配
(a) 固定搭配:当两个词构成不可拆分的语义单元(如"十年之遥"、"与此同时"、"一如既往"),视为原子词项。
(b) 高频合成词:现代汉语中词典查得到的合成词(副词+能愿、否定+能愿、方位+词 等)按原子保留,不用 : 拆:
| 类别 | 原子保留 |
|---|---|
| 否定+能愿 | 不能 / 不会 / 不可 / 不应 / 不得 / 不必 |
| 存在否定 | 没有 / 无法 |
| 能愿 | 可以 / 能够 |
判定:词典查得到 → 原子;临时组合 → 可拆。不:适用、不:公开、不:明确 这些临时否定组合仍可拆。
边界说明:
- "不"+动词/形容词的临时组合仍用
::不:适用、不:公开(不是词典词,而是构词法上临时否定)。 - 模态+动词复合中段仍可拆为
>中段(§3.5):他 > 不得不 > 离开——这里"不得不"整体作中段,不被:拆分。
(c) 任务导向的粒度准则:除固定搭配外,专有名词、行业术语、偏正复合词也应尽量保留为原子词项。判定问法:
"在当前句子的推导链中,这个子词项是否会被单独施加
:或>?"
- 否 → 并入整体,作为单原子。
- 是 → 才拆分。
示例:
| 原子写法 ✅ | 过度拆解 ❌ |
|---|---|
深度强化学习 |
深度 : 强化 : 学习 |
学习效率 |
学习 : 效率 |
决策鲁棒性 |
决策 : 鲁棒性 |
想象树 |
想象 : 树 |
协作式中间态 |
协作式 : 中间态 |
不能 / 没有 / 无法 |
不:能 / 没:有 / 无:法 |
复杂不完美环境 |
((复杂 & 不完美) : 环境)(除非子词需独立操作) |
保留可拆分的反例:(前 : 负责人) : Karpathy 中"前"被保留——因为上下文若对比"前任 vs 现任","前"需独立承载 :。粒度选择取决于当前句子的推导需求。
领域固定 V+O 短语作合成原子:当「V+O」在所属领域反复出现且语义稳定到读者一眼识别为固定概念,按合成原子处理比按 §3.7-反例 / §1.1 约束 10 强行提升为 > 命题更忠实——即便 V 在通用语境是谓词动词。判定(高门槛,宁严勿松):
- 该短语在所属领域文献内反复出现且语义稳定(如 RL 语境的"超越奖励"≈ beyond-reward、病理学的"携带病毒"、机器学习的"数据驱动");
- 投影时不会被单独施加
:或>(即 V 与 O 不会被独立修饰); - 拆为
V > O反而引入原句没有的递进感。
三条同时满足才生效,否则回退提升处理。
✅ 抽取 > 超越奖励:额外:信息 (RL 领域固定属性短语)
✅ 采集 > 携带病毒:样本 (病理学固定属性短语)
❌ S > 具备:能力 ("具备能力"是临时动宾,不是术语,应作 S > 具备 > 能力)
心法:SVO 用来做逻辑推导,不是底层分词。原子粒度应大到足以让结构化的算式承载语义重心,而不是把所有词都剥成单字。
3.4 驱动的双重承载
> 统一承载两类能量流向,二者在本体上同构:
(a) 动作流:施事 → 动作 → 受事
论文 > 促使 > (Tishby > 认识到 > (理论 > 涵盖 > 过程))
(b) 逻辑流:前件命题 → 逻辑连词 → 后件命题
(P1) > 则 > (P2)
(P1) > 尽管 > (P2)
(P1) > 导致 > (P2)
识别原则:> 两端是词项还是封装域决定动作流/逻辑流——两端都是完整命题时即为逻辑流;否则即为动作流。
3.5 > 中段(语言无关)
SVO 代数与语言无关。算子、优先级、结合律、封装规则全部是形式化定义,不依赖具体语言。
原则:原句用什么连接词,SVO 就用什么。中文写中文、英文写英文、日文写日文,照原词填入 > 中段即可。
合法中段形态
| 情形 | 示例 |
|---|---|
| 单动词 | 他 > 吃 > 苹果 |
| 模态+动词 | 他 > 不得不 > 离开 |
| 介词 | 模型 > 基于 > 想象 |
| 模态+介词 | 算法 > 能在 > 规则完美环境中 > 利用 > 模型 |
| 复合连接 | 测试 > 设定 > 限制 > 从而迫使 > (...) |
介词、模态+介词、复合连接短语("从而迫使"、"以至于"、"so as to"、"in order that")均可整体作中段,不必拆成两个 >。
中文常见词举例
| 大类 | 常见词 | 示例 |
|---|---|---|
| 条件 | 则、否则、除非、只有、当 | (P) > 则 > (Q) |
| 让步 | 尽管、虽然、即使、纵然 | (P) > 尽管 > (Q) |
| 因果(正向) | 所以、因此、导致、使得、造成、引起 | (A) > 所以 > (B) |
| 推论 | 因此、所以、从而、故而、进而 | (P) > 因此 > (Q) |
| 目的 | 以便、为了、旨在、力求 | (P) > 以便 > (Q) |
| 致使 | 促使、迫使、让、令、使、催生 | A > 促使 > (B > V > (...)) |
| 认知指向 | 表示、认为、知道、察觉、发现、意识到、主张 | K > 表示 > (...) |
| 比较 | 比、胜过、不如、堪比、逊于 | A > 胜过 > B |
| 言说引导 | 说、问、答、告知、声明 | K > 告知 > T > (...) |
方向要求
> 的方向必须与能量/因果流一致(原因 → 结果、条件 → 结论、先 → 后)。
当原句连接词字面方向与能量流相反时,替换为对应的正向连接词,不受字面语序束缚:
| 反向(字面) | 正向(SVO 使用) | 示例 |
|---|---|---|
| 由于 / 因为 | 所以 / 因此 | "由于 A,B" → (A) > 所以 > (B) |
| since / because | so / therefore | "B because A" → (A) > so > (B) |
| 鉴于 | 故 | "鉴于 A,B" → (A) > 故 > (B) |
正向连接词(所以 / 因此 / 从而 / 于是 / 故 / therefore)保持原样;条件/让步/致使类(则/尽管/导致/迫使)本身就顺向,无需替换。
不要把一种语言的连接词映射成另一种语言的等价物再反转方向——写哪个连接词,就按对应的能量流方向。
状语-动词绑定 (scope:V)
副词修饰动词时,通过 : 左修饰绑到动词头上,整体作 > 中段:
S > (scope:V) > O
scope 限定 V 的施行方式 / 范围 / 频次 / 时体,不是 V 的属性,也不是与 V 并列的能量阶段。这与汉语"副词紧贴动词"的自然语序同构。
适用类别:
| 类别 | 示例词 | 示例 |
|---|---|---|
| 分布量化 | 均、都、全、各、皆、分别 | (A:表现) > (均:优于) > (B:表现) |
| 频次 | 再次、反复、多次、几次、一直 | S > (反复:验证) > 假设 |
| 时体 | 已经、正在、曾经、即将、终于 | 团队 > (已经:发布) > 报告 |
| 范围 | 一起、同时、单独、共同 | 他们 > (共同:探讨) > 方法 |
| 程度 | 显著、明显、略微、大幅、彻底 | X > (显著:提升) > 效率 |
| 立场 | 坚决、果断、勉强、断然 | 他 > (果断:拒绝) > 提议 |
判定规则:
(X:Y) 中 Y 必须是动词头,X 是状语副词。反过来则违规:
| 形式 | 判定 | 原因 |
|---|---|---|
(均:优于) |
✅ | 左副词 + 右动词头,比较结构 S > V > O 完整 |
(优于:B) |
❌ | 比较项 NP 被吞成 V 属性(违反 §1.1 / 约束 7) |
(具备:能力) |
❌ | 动词在 : 左侧作修饰(违反 §1.1 / 约束 10),应提升为 S > 具备 > 能力 |
(显著:提升) |
✅ 或原子 | 程度副词 + 动词;若搭配高频固化(§3.3)可直接作原子 显著提升 |
多状语堆叠:逐层 :(左结合自然展开):
S > (再:(一次:提交)) > 申请 (副词层叠:再 → 一次 → 提交)
S > ((仔细 & 反复):检查) > 数据 (仅当原句"仔细并反复"本就并列时用 &)
与跨句连接词 / 句子级副词的区分:
- 句子级副词(显然 / 据说 / 不幸的是)作用于整个命题,绑命题封装域:
显然 : (他 > 错了)(§4.12)。 - 状语副词作用于单个动词,绑动词头:
(显然:错了)不合法——"显然"是认知立场,不是动作方式修饰。 - 跨句连接词(然而 / 因此)作
>首节点(§3.10)。
3.6 封装域 ( ) 的作用
封装域将一组算式打包成一个原子单位。对外层算子而言,封装域等价于一个词项。
必须封装的情形:
>的逻辑流两端出现完整命题时,该命题必须封装(除同主语扁平链,见 §3.9.1)。:的右操作数是完整命题时,该命题必须封装。- 致使类连接词(使/让/令/迫使/促使/导致/驱使/叫)后跟带自身主语的命题时,该命题整体封装:
✅ 论文 > 促使 > (Tishby > 认识到 > (...)) ✅ 测试 > 迫使 > (智能体 > (先:想象) > 结果) - 连续
:语义分组与左结合不符时,必须按语义分组封装:
三层以上的连续❌ 其:发表的:两篇:相关论文 (左结合解析不符语义) ✅ (其:发表):(两篇:相关论文):几乎总需封装。 - 任何时候需要覆盖默认优先级时。
禁止封装的情形:
- 单一词项(
(苹果)与苹果等价,但多余)。 - 破坏固定搭配(不能把"十年之遥"写成
(十年 : 之遥))。 - 默认优先级与关联律已能正确结合的子式——见 §3.7「冗余括号识别」。括号只在改变默认结合、显式分组消歧、或满足上面五条「必须封装」时使用。
3.7 运算优先级与结合性
从高到低:
( ) → : → > → & |
即括号最紧,绑定次之,驱动更松,合取/析取最松。
A : B > C & D > E
解析为:
((A : B) > C) & (D > E)
: 左结合:A : B : C = (A : B) : C。
> 左结合:A > B > C > D = ((A > B) > C) > D。
后者与主谓宾的自然语序一致:A 先与 B 发生作用,其结果再与 C 发生作用。
冗余括号识别
总原则:括号是结构标记不是装饰。凡按已定义的优先级与关联律即可正确结合的子式,不加 ( )。
五条冗余条款:
-
单原子裹括号——
(苹果) → 苹果,(复杂不完美环境中) : (...) → 复杂不完美环境中 : (...)。 -
>链中的:子式——:紧于>,自然结合:❌ (DeepMind:最新博客) > 介绍 > ... ✅ DeepMind:最新博客 > 介绍 > ... -
&|中的>或:子式——&|最低,自然结合:❌ (智能体:学习效率) & (智能体:决策鲁棒性) ✅ 智能体:学习效率 & 智能体:决策鲁棒性 ❌ (A > 提出 > X) & (B > 验证 > Y) ✅ A > 提出 > X & B > 验证 > Y -
整条算式最外层括号——不被任何外层算子作用:
❌ ((不可预知:问题) > 频发) ✅ 不可预知:问题 > 频发 -
连续
:链中关联律无差异——所有修饰均独立绑同一中心、内部不形成分簇时,左/右结合都得回原句,内层括号可去:❌ 几个:(显著:特征) ✅ 几个:显著:特征 (= (几个:显著):特征,回读仍为"几个显著的特征") ❌ 这一:(核心概念):想象力 ✅ 这一:核心概念:想象力判定:所有修饰是否同向限定同一头词、且无子簇?是则可去;否则保留括号显式分组(如
(其:发表):(两篇:相关论文)必须保留——内部有真实分簇)。
保留括号的反例——必需的情形不在「冗余」之列,见 §3.6「必须封装的情形」与下面的快速对照:
| 情形 | 括号必需 | 原因 |
|---|---|---|
... > (复杂 & 规则:不明确) |
✅ 必需 | & 在 > 操作数内,需收缩辖域 |
显然 : (他 > 错了) |
✅ 必需 | > 命题作 : 右操作数 |
论文 > 促使 > (T > 认识到 > (...)) |
✅ 必需 | 致使嵌入命题 |
(其:发表):(两篇:相关论文) |
✅ 必需 | 连续 : 内有真实分簇 |
判定口诀:能去就去,去不掉再留。拿不准时把括号去掉重读一遍,能回读原句就是冗余。
& 优先级陷阱(与冗余括号成对出现)
&| 优先级最低这把双刃剑——它让 (A:B) & (C:D) 自然解析为两个 : 子式的合取(冗余条款 3 的依据),同时也让 A > B > C & D > E 自然把整条 > 链切成 (A > B > C) & (D > E)。冗余括号识别的反面是:当作者实际想表达「A > B > C > X,X 是 & 子结构」时,必须把 & 整体封装:
❌ S > V > O & 例如 > (...) (误读为 (S > V > O) & (例如 > (...)),主干被切成两段)
✅ S > V > O > 例如 > (...) ("例如"作 `>` 中段承接主干,`&` 留在 `(...)` 内)
自检:每写完一行,按优先级把 & 切位画一遍——如果 & 把本应成一体的 > 链切开,就是误读,加 ( ) 或改结构。
3.8 歧义消解
原句本身不歧义时可省略封装;原句有歧义或 SVO 写法会引入歧义时必须封装。
约定一:当同一个修饰语可能限定动词或整个命题时,封装明示辖域。
❌ 显然 : 他 > 错了
✅ 显然 : (他 > 错了) (限定整个命题)
✅ 他 > (显然 : 错了) (限定"错了"这个谓词)
约定二:当话题可能限定一个动作或一整段话语时,封装要明确。
(AI:方面) : (Karpathy > 偏向 > X) (整段话都在 AI 方面)
Karpathy > ((AI:方面) : 偏向) > X (只有"偏向"这个动作在 AI 方面)
约定三:当 > 中段是逻辑连词时,两端必须是封装的完整命题。裸词项不能出现在逻辑流 > 的两端:
❌ P > 则 > Q
✅ (P) > 则 > (Q)
✅ (P) > if > (Q)
3.9 可读性建议
以下是可读性与下游效率建议,最终由作者按原句判断。§1.0 的"能回读原句"是唯一凌驾检验。
3.9.1 同主语扁平 > 链
当句内命题间连接词(从而/因此/所以/故而/以便/于是 等)前后主语承前省略(即同一主语)时,优先扁平链,不重复主语也不封装两端:
✅ 它们 > (能够:学习) > 阐释 > (其:内部模拟过程) > 从而 > 使用 > ((即使:不完美):环境动态模型)
✅ 他 > 听完 > 报告 > 因此 > 决定 > 辞职
❌ (它们 > 学习 > X) > 从而 > (它们 > 使用 > Y)
回退到封装的条件:
| 情形 | 示例 |
|---|---|
| 主语切换 | (经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > (被迫:裁员)) |
两端含 & / ` |
` 并列 |
两端自身是多段 > 链 |
(P1 > P2 > P3) > 因此 > (Q1 > Q2 > Q3) |
| 致使类连接词(主语切换) | A > 迫使 > (B > V > C) |
承前省略是中文正常语法现象,不是歧义;强行回填主语相当于改写原句。扁平形式下 > 已保证顺序流动,连接词作中段节点时两侧命题已被 > 自然隔开,无需括号。
3.9.2 词汇组块坍缩 (Lexical Chunking)
专有名词、行业术语、偏正复合词、高频合成词作为原子词项,能合则合。判定见 §3.3。
反例 vs 正例:
深度强化学习✅ ,而非深度 : 强化 : 学习❌学习效率 & 决策鲁棒性✅ ,而非(学习 : 效率) & (决策 : 鲁棒性)❌基于想象的计划方法✅ ,而非(基于 : 想象) : 计划 : 方法❌不能✅ ,而非不 : 能❌
3.9.3 扁平化多重属性 (Flattening Modifiers)
当同一核心被多个修饰同时限定时,先用 & 把所有修饰合取,再做一次 : 绑定。避免生成 ((A:B):C):D 四层以上的嵌套。
方位词归并:方位词(中、里、上、下、前、后、内、外、间)直接并入名词,不单独绑定——环境中、桌上,不写 环境 : 中。
反例:
((((复杂 & 不完美) : 环境) : 中) : ((学习 : 效率) & (决策 : 鲁棒性)))
正例(中等粒度):
((复杂 & 不完美) : 环境中) : (学习效率 & 决策鲁棒性)
正例(更粗粒度):
复杂不完美环境中 : (学习效率 & 决策鲁棒性)
3.9.4 宏辖域优先 (Macro-Scoping)
范围、背景、话题修饰默认上提到整命题层绑定,而非深埋在受事子树里。除非原意明确只限定某个动词。
反例:
DeepMind > 提升 > (智能体 : ((((复杂 & 不完美) : 环境) : 中) : ((学习 : 效率) & (决策 : 鲁棒性))))
正例:
(复杂不完美环境) : (DeepMind > 提升 > 智能体:(学习效率 & 决策鲁棒性))
但:当场景本身是操作流的一个阶段("先到 X 再做 Y")时,保留在线性 > 链比上提更忠实语义:
✅ ((如:AlphaGo):已有算法) > 能在 > 规则完美环境中 > 利用 > 内部模型 > 进行 > (推理 & 计划)
三种场景处理方式:
| 情形 | 处理 |
|---|---|
| X 是静态场景框定,与 Y 无时序关系 | 背景上提 X : (...Y...) |
| X 是操作流的一个阶段 | 保留线性 > 能在 > X > V > Y |
| X 与模态/其他状语是同层修饰 | & 并列作状语丛:(能 & 根据:环境差异):调整 |
选择依据是原句的语义重心:场景强调 → 上提;操作时序 → 线性;同层修饰 → 并列。
注意:不要用 & 把本可线性展开的时序/因果关系压平为状语丛——这会丢失原句的操作顺序,也更罗嗦。& 仅用于原句中本就并列的项。
3.9.5 虚词与代词
原则:原句里的虚词(该、还、并、其、就、也)默认保留——按自然语言投影原则,原句词项不擅自删除。
只在以下情形可省略:
- 作者确信删除不影响语义。
- 需要避免明显冗余(如原句重复主语)。
模态词(必须、可以、应该、可能、能、能够)和否定词(不、未、非)始终保留——它们承载真值判断。
"的" 由 : 承担,不并存:: 的语义定义是"左修饰右",与中文"的"、英文"'s"/"of"、日文"の" 承担同一修饰关系。已用 : 处不再保留"的"。
❌ 基于想象的:计划方法 ❌ DeepMind的:最新博客
✅ (基于:想象):计划方法 ✅ DeepMind:最新博客
判定口诀:
"的"作为结构助词连接定语和中心语时,其功能由
:承担;两者不并存。 "的"作为名词性成分(如"我的"中指代所有物)时,通常并入前词或作为原子保留。
3.9.6 语义重排
当字面投影导致结构扭曲、辖域不清或语义重心被掩盖时,允许重排:
| 情形 | 重排方式 | 示例 |
|---|---|---|
| 承接词与算子语义重复 | 省略(据此/由此/从此-已被连接词/& 承担) |
"…并据此行动" → … & 行动 |
| 字面语序扭曲修饰关系 | 重排为 A:B 形式使限定关系显式 |
"会在初期" → (初期:会) |
| 并列动作被状语粘连 | 用 & 切分,状语上提或就近绑定 |
"想象X并做Y" → (想象 > X) & (做 > Y) |
不可重排:原句语序本就表达语义("先…后…")、修饰项有多种解读时、专有术语/固定搭配。
字面忠实让步于语义清晰:§二"合法性"要求"能读回原句语义",字面忠实与语义清晰冲突时,以回读检验通过为准。
3.9.7 多命题逗号分句
自然语言标点不是 SVO 分隔符。含多命题的长句按语义关系处理:
| 语义关系 | SVO 处理 |
|---|---|
| 并列/延续("A,并 B"、"A,它们 B") | & 合取,或拆成独立多行 |
| 方式-动作流("通过 A,并 B"——A 是手段,B 是基于该手段的动作) | 扁平 > 链(同主语承前省略),不用 & |
| 因果/推论("A,因此 B") | (A) > 因此 > (B) |
| 条件("A,则 B") | (A) > 则 > (B) |
| 让步("A,但 B") | (A) > 但 > (B) |
「并」的双重语义——「并」字面是并列连词,但 SVO 选 & 还是 > 由两侧的语义关系决定,不由词本身决定:
| 类别 | 判定测试 | SVO |
|---|---|---|
| 真并列(动作平行共存,主语相同,删"并"句意不变) | 把"并"换成"和" / "及" 重读——通顺 | & |
| 方式-动作流(前段是方式/手段,后段是基于该方式的动作;"并"承"接着/进而"语义) | 把"并"换成"和"——读起来怪 / 丢失递进感 | > |
例:
原句:例如通过调整想象轨迹的数量,并从想象中抽取超越奖励的额外信息。
"并"换"和"测试:"通过调整数量 和 从想象中抽取信息" — 怪
更准确读法:"通过调整数量 → 从想象中抽取信息" — 方式接动作
✅ ... > 例如 > (通过 > 调整 > 想象:轨迹:数量 > 从 > 想象中 > 抽取 > 超越奖励:额外:信息)
❌ ... > 例如 > (通过 > 调整 > X & 从 > 想象中 > 抽取 > Y)
原句:他买了苹果并买了橘子。
"并"换"和"测试:"买了苹果 和 买了橘子" — 通顺
✅ 他 > (买 > 苹果 & 买 > 橘子)
当一个自然语言句子包含两个或多个可独立成立的命题,且用逗号 + 代词回指("它们"、"这"、"该 X")串联时,允许拆解为多行 SVO。拆行时将代词显式化("它们" → "该两篇论文"、"它" → 具名指称)——前提是上下文已提供实义指称;若是单句独立、无前文可回指,保留原句代词(详见 §3.9.5「虚词与代词」与 §3.9.1「同主语扁平 > 链」)。
3.10 跨句语篇连接词
跨句连接词(然而 / 因此 / 从而 / 此外 / 总之 / 不过 / 但是 / 例如 …)表达本句与前一句的逻辑关系。它们不是句内副词,不可用 : 绑本句——回读"然而地真实世界…"不通。
与句内立场副词的区分:
| 词类 | 代表词 | 作用 | 处理 |
|---|---|---|---|
| 句内立场副词 | 显然 / 显而易见 / 据说 | 表达说话者对本句命题的认知或模态立场 | 可 : 绑本句:显然 : (P) |
| 跨句语篇连接词 | 然而 / 因此 / 从而 / 此外 / 总之 | 表达本句与前一句的逻辑关系 | 不可 : 绑;见下三方案 |
回读测试:副词可读成"X地Y"(显然地错了 ✓),连接词不行(然而地真实世界 ✗)。
三种处理方案
方案 1:跨句合并(若流水线允许)
相邻两句构成明显逻辑关系时,合并为一个 SVO,连接词作 > 中段:
(前句命题) > 然而 > (后句命题)
(前句命题) > 因此 > (后句命题)
方案 2:分行保留,连接词作句首 > 节点(若必须一行一句)
然而 > ((真实世界 > (复杂 & (规则:不明确))) & ((不可预知:问题) > 频发)) > 使得 > ((此类环境中:想象) > 变得 > (耗时 & 耗力))
读作"承接前文的然而,然后…"。保留了语篇信号但不把连接词误绑为句内修饰。
方案 3:丢弃(若下游不关心语篇衔接)
((真实世界 > (复杂 & (规则:不明确))) & ((不可预知:问题) > 频发)) > 使得 > (...)
常见跨句连接词
| 关系 | 代表词 | 方案 2 写法 |
|---|---|---|
| 转折 | 然而 / 不过 / 但是 / 可是 | 然而 > (本句) |
| 推论 | 因此 / 所以 / 故而 | 因此 > (本句) |
| 递进 | 从而 / 进而 / 并且 | 从而 > (本句) |
| 补充 | 此外 / 另外 / 而且 | 此外 > (本句) |
| 总括 | 总之 / 综上 / 简言之 | 总之 > (本句) |
| 举例 | 例如 / 比如 | 例如 > (本句) |
四、标准拓扑模型
4.1 基本动作模型
拓扑:施事 > 动作 > 受事
他 > 吃 > 苹果
论文 > 引用 > (前人 : 工作)
4.2 话题-核心模型
原句:在AI辅助编程方面,Karpathy更偏向"协作式中间态"。
(AI辅助编程方面) : (Karpathy > (更 : 偏向) > 协作式中间态)
解读:整个主命题被"AI辅助编程方面"这个原子背景限定——即命题只在此范围内评真值。AI辅助编程、协作式中间态 作为专有术语保持原子粒度。
4.3 身份嵌套模型
原句:OpenAI的创始元老Karpathy表示AGI仍有十年之遥。
(OpenAI : 创始 : 元老) : Karpathy > 表示 > (AGI > 仍有 > 十年之遥)
身份直接作为属性绑定到 Karpathy。"十年之遥"为原子词项。
4.4 致使模型
拓扑:A > 致使词 > (B > 动作 > C) —— 嵌入命题必须封装。
原句:论文促使Tishby认识到理论可能涵盖广泛的过程。
论文 > 促使 > (Tishby > 认识到 > (理论 > (可能 : 涵盖) > (广泛 : 过程)))
原句:测试设定了失败后不能重玩的限制,从而迫使智能体在行动前先想象不同策略的结果。
测试 > (设定 > ((失败后 & (不能:重玩)):限制)) > 从而 > 迫使 > (智能体 > (在:行动前) > (先:想象) > (不同:策略:结果))
为什么嵌入命题必封装:
- 嵌入命题有自己的主语——"论文促使 Tishby…"中"论文"和"Tishby"不同,属主语切换。
- 避免外层算子侵入——不封装时,内层命题末尾的
>节点会被读成外层链的延续,辖域混乱。 - 回读一致性——封装后
A > 迫使 > (B > 做 > C)读作 "A 迫使 [B 做 C]";不封装则读成 "A 迫使 B 做 C",当内层含多段>时必然串台。
4.5 条件模型
拓扑:(条件命题) > 则 > (结果命题)
原句:该计划如果不公开,就无法获得认可。
(该计划 > 不公开) > 则 > (该计划 > (无法:获得) > 认可)
4.6 让步模型
拓扑:(命题1) > 尽管 > (命题2)
原句:尽管下雨,比赛仍然继续。
(天 > 下雨) > 尽管 > (比赛 > (仍然 : 继续))
4.7 因果链模型
原句:经济下行导致消费萎缩,因此企业被迫裁员。
(经济 > 下行) > 导致 > (消费 > 萎缩) > 因此 > (企业 > (被迫 : 裁员))
链式 > 让整条因果推导在语法上呈现为一条直线。由于主语在三命题间切换(经济/消费/企业),需要封装两端。
反向连接词正向化:
原句:由于每步想象都会增加计算成本,智能体会在初期想象多步结果。
((每步:想象) > (都会:增加) > (计算:成本)) > 所以 > (智能体 > (初期:会) > 想象 > 多步结果)
注意"由于"替换为"所以",使 > 方向与因果流同向;(初期:会) 为语义重排,使修饰关系显式。
4.8 同主语扁平链模型
原句:它们能够学习阐释其内部模拟过程,从而使用即使不完美的环境动态模型。
它们 > (能够:学习) > 阐释 > (其:内部模拟过程) > 从而 > 使用 > ((即使:不完美):环境动态模型)
同主语承前省略,采用扁平 > 链,不重复主语也不封装两端。
4.9 介词/方位作 > 链阶段
原句:已有算法如AlphaGo能在规则完美的环境中利用内部模型进行推理和计划。
((如:AlphaGo):已有算法) > 能在 > 规则完美环境中 > 利用 > 内部模型 > 进行 > (推理 & 计划)
"能在"(模态+介词)作中段;"规则完美环境中"是操作流的一个阶段,保留在线性 > 链里比上提更忠实语义。
4.10 被动与否定复合模型
原句:现有框架不仅不适用,而且必须被立刻替换。
(现有 : 框架) > ((不 : 适用) & (必须 : 被 : 立刻 : 替换))
4.11 量化模型
4.11.1 范围量化词(修饰主语 NP)
绑在主语 NP 上,作主语的左限定:
所有 : 学生 > 通过 > 考试
没有 学生 > 通过 > 考试 ("没有"为原子)
某 : 学生 > 通过 > 考试
每个 : 学生 > 通过 > 考试
4.11.2 分布量化副词(绑动词头)
均 / 都 / 全 / 各 / 皆 / 分别——不修饰主语 NP,而是声明"对外层 scope 中每个元素,命题独立成立"。按 §3.5 状语-动词绑定模式 (scope:V) 处理:
(A:表现) > (均:优于) > (B:表现)
学生 > (都:通过) > 考试
他们 > (分别:完成) > 任务
冗余省略:当外层 scope 已表达全称(这两种X中 / 所有X中 / 每个X时 / 两者都),分布副词冗余可省——scope 包络 + 单一命题 = ∀ 已被结构编码:
(这两种:任务中) : ((A:表现) > 优于 > (B:表现)) (省"均",scope 已蕴含 ∀)
(这两种:任务中) : ((A:表现) > (均:优于) > (B:表现)) (保留"均"以贴原句字面)
两种写法语义等价,前者更扁平、后者更贴字面。
禁形:
❌ (均:(A:表现)) > 优于 > (B:表现) ("均"非属性修饰,"均的表现"不通)
❌ (A:表现) > 均 > 优于 > (B:表现) ("均"非传递阶段;且违反约束 7 比较连词不带修饰)
✅ (A:表现) > (均:优于) > (B:表现) (副词紧贴动词,符合 §3.5 状语-动词绑定)
4.11.3 区分要点
| 类别 | 示例词 | 绑定位置 |
|---|---|---|
| 范围量化词 | 所有 / 某 / 没有 / 每个 / 任一 | : 修饰主语 NP(§4.11.1) |
| 分布量化副词 | 均 / 都 / 全 / 各 / 皆 / 分别 | (scope:V) 绑动词头(§4.11.2 / §3.5) |
| 频次 / 时体 / 范围副词 | 再次 / 已经 / 一起 | (scope:V) 绑动词头(§3.5) |
判定:能否换成"和……都……"或"每个……都……"重写?换得通是分布副词(4.11.2),不通是范围量化词(4.11.1)。
4.12 句子级副词模型
原句:显然,他错了。
显然 : (他 > 错了)
原句:不幸的是,实验失败了。
(不幸 : 的是) : (实验 > 失败)
句子级副词通过 : 绑定到封装命题上,辖域精确锁定为整个命题。
4.13 跨句连接词模型
原句:然而,真实世界复杂且规则不明确,不可预知的问题频发。
然而 > ((真实世界 > (复杂 & (规则:不明确))) & ((不可预知:问题) > 频发))
句首"然而"作 > 首节点,不与 : 混淆。
4.14 比较模型
原句:A 比 B 更大。
A > (比 : B : 更 : 大)
或等价写法:
(A & B) > 比较 > (A > 更大)
前者把"比B更大"视为A的谓词属性,后者把比较视为一个显式的逻辑力。
比较连词作 > 中段:优于 / 胜过 / 不如 / 堪比 / 逊于 / 超过 ——必须 > + 完整两端比较项,不得把比较项 NP 塞进 : 右侧:
✅ A > 优于 > B
❌ A > (胜过:B) (比较项 B 被吞为 V 属性)
副词修饰比较连词:使用 (adv:比较词) 形式(§3.5 状语-动词绑定):
✅ (A:表现) > (均:优于) > (B:表现)
✅ X > (明显:胜过) > Y
✅ 方案A > (略微:逊于) > 方案B
注意 (adv:V) 中 V 仍是动词头,比较结构 S > V > O 完整可抽——这与禁形 (V:NP) 形似而本质不同。
4.15 疑问与祈使模型
疑问:"他吃了吗?"
疑问 : (他 > 吃了)
祈使:"请关门。"
祈使 : (你 > 关 > 门)
语气作为句子级属性绑定到命题封装域上。
五、实战长难句解析
挑战句
原句:作为前负责人,Karpathy 今天明确向团队表示,该计划如果不公开,就无法获得认可。
SVO 表达式
(前 : 负责人) : Karpathy > ((今天 & 明确 & (向 : 团队)) : 表示) > ((该计划 > 不公开) > 则 > (该计划 > (无法 : 获得) > 认可))
逐层解析
- 实体限定(属性本体):
(前:负责人) : Karpathy—— 身份作为复合属性绑定到实体。 - 动作谓词(属性本体):
((今天 & 明确 & (向:团队)) : 表示)—— 时间、方式、对象三属性合取后限定"表示"。 - 主动作流(力本体):
Karpathy > (...) > (...)—— 施事→言说动作→言说内容。 - 言说内容(力本体):
((该计划 > 不公开) > 则 > (...))—— 条件命题通过逻辑连词"则"驱动结果命题。 - 条件命题:
(该计划 > 不公开)—— 前件,完整命题封装。"不公开"中"不"与"公开"为临时否定组合,可用:拆为不:公开,此处选择合并为原子以简化。 - 结果命题:
(该计划 > (无法 : 获得) > 认可)—— 后件,完整命题封装;"无法"为高频合成词原子。
粗粒度 vs 细粒度对比
算式合法不代表好用。下面两组对照展示粗粒度化的实际效果——同样一句话,过度原子化会陷入"LISP 括号综合征",而粗粒度版能让语义重心一眼可见。
对比示例 1:DeepMind 智能体
原句:DeepMind 通过赋予智能体想象力,提升智能体在复杂不完美环境中的学习效率和决策鲁棒性。
❌ 过度原子化:
DeepMind > ((通过 : (DeepMind > 赋予 > 智能体 > 想象力)) : 提升) > (智能体 : ((((复杂 & 不完美) : 环境) : 中) : ((学习 : 效率) & (决策 : 鲁棒性))))
✅ 粗粒度优化版:
(复杂不完美环境) : (DeepMind > ((通过 : (赋予 > 想象力)) : 提升) > 智能体:(学习效率 & 决策鲁棒性))
优化点:
- 辖域上提:把"复杂不完美环境"作为整个命题的背景,提到最前面。
- 组块坍缩:
复杂不完美环境、学习效率、决策鲁棒性各自合并为原子词项。 - 省略主语重复:施事
DeepMind在主句中已出现,从属命题里的主语可省略为赋予 > 想象力。 - 方位词归并:
环境中直接合并,不写作环境 : 中。
对比示例 2:智能体决策
原句:该智能体还能决定例如测试不同行动或构建复杂想象树的想象方式,并能优化计划的经济性和效率。
✅ 粗粒度版:
智能体 > (决定 > (例如:(测试>不同行动) | (构建>复杂想象树)) : 想象方式) & (优化 > 计划:(经济性 & 效率))
优化点:
- 虚词省略:
该、还、能、并不承载逻辑重量时删除。 - 组块坍缩:
想象树、想象方式、不同行动合并为原子词项。 - 扁平化:
(经济性 & 效率)一次性并联绑定到计划。
六、书写步骤
总原则:按原句语序从左到右写,遇到结构点才启用算子。字面扭曲时语义重心优先,最终用"回读检验"兜底。
- 句首扫描:若句首为跨句连接词(然而/因此/从而/此外/总之 等),按 §3.10 方案 2 作
>首节点,然后按下列流程处理剩余主体。 - 标原子词项:扫一遍句子,把专有名词、行业术语、偏正复合词、固定搭配、高频合成词(不能/没有/无法 等)标记为原子,后续不拆分。
- 识别主干:主语、主动词(或主命题)、宾语/补语。
- 按原句顺序组装:
- 修饰关系 →
:绑定(修饰在左,被修饰在右;不与"的"并存) - 动作/逻辑流 →
>驱动(按原句顺序串联,中段填原句里的动词/介词/连接词;反向连接词正向化) - 原句并列项 →
&/|
- 修饰关系 →
- 字面 vs 语义:字面语序扭曲语义重心时允许重排(省略冗余承接词、状语就近绑定、并列动作
&切分)。 - 封装辖域:
- 逻辑流
>两端若是完整命题 → 必须( ),除同主语扁平链 :右操作数若是完整命题 →( )- 致使结构的嵌入命题 →
( ) - 连续
:语义分组与左结合不符 →( );三层以上必封装 - 原句不歧义但 SVO 写法会引入歧义 →
( )消解
- 逻辑流
- 自检(硬约束):
- 没有把命题关系压成定语
- 没有拆解专有名词、术语、固定搭配、高频合成词
- 没有 SVO 层面引入的新歧义
- 致使结构嵌入命题已封装
- "的"与
:没有并存 - 跨句连接词没作
:绑本句 - 算式内没有中文标点
- 回读检验(最终检验):把算式按结合律读成自然语言一遍,应与原句语义接近。读起来拗口或偏离原意 → 回去改。
七、常见陷阱
陷阱分两级:错解(必须修复)与 可读性问题(建议修复)。
7.1 错解(对应 §1.1 硬性约束)
错解一:把命题关系压成定语
❌ ((不:公开):该计划) > 则 > (...)
✅ (该计划 > 不公开) > 则 > (...)
条件必须是完整命题。
错解二:拆解专有名词、术语、固定搭配、高频合成词
❌ 深度 : 强化 : 学习 ❌ 不 : 能
❌ (基于 : 想象) : 计划 : 方法 ❌ 没 : 有
✅ 深度强化学习 ✅ 不能
✅ 基于想象的计划方法 ✅ 没有
错解三:必要的辖域封装缺失
❌ 显然 他 > 错了 ❌ P > 则 > Q
✅ 显然 : (他 > 错了) ✅ (P) > 则 > (Q)
错解四:致使结构嵌入命题未封装
❌ A > 迫使 > B > 在:行动前 > 想象 > C
✅ A > 迫使 > (B > (在:行动前) > 想象 > C)
❌ 论文 > 促使 > T > 认识到 > (...)
✅ 论文 > 促使 > (T > 认识到 > (...))
致使结构的外层主语与内层主语不同,不是承前省略,属于主语切换。
错解五:: 与"的"并存
❌ 基于想象的:计划方法 ❌ 其:发表的:两篇:相关论文
✅ (基于:想象):计划方法 ✅ (其:发表):(两篇:相关论文)
错解六:跨句连接词作 : 绑本句
❌ 然而 : (真实世界 > 复杂)
✅ 然而 > (真实世界 > (复杂 & (规则:不明确)))
错解七:> 方向与因果流相反
❌ (结果) > 由于 > (原因)
✅ (原因) > 所以 > (结果)
错解八:中文标点作分隔符
❌ DeepMind:最新博客 > 介绍 > ... ,论文 > 共同探讨 > ...
✅ ((DeepMind:最新博客) > 介绍 > (...)) & ((该两篇论文) > (共同:探讨) > (...))
或拆成多行。
7.2 可读性问题(建议修复)
话题辖域不清
歧义 (AI:方面) : Karpathy > 偏向 > X
明确 (AI:方面) : (Karpathy > 偏向 > X) (整命题都在 AI 方面)
明确 Karpathy > ((AI:方面):偏向) > X (仅动作在 AI 方面)
俄罗斯套娃式嵌套
较差 ((((复杂&不完美):环境):中):((学习:效率)&(决策:鲁棒性)))
较好 ((复杂&不完美):环境中) : (学习效率 & 决策鲁棒性)
更好 复杂不完美环境中 : (学习效率 & 决策鲁棒性)
方位词并入名词、同层修饰先 & 后 : 一次绑定。
连续 : 辖域模糊
❌ 其:发表的:两篇:相关论文 (左结合解析:((其:发表的):两篇):相关:论文 — 串台)
✅ (其:发表):(两篇:相关论文)
三层以上的连续 : 几乎总需封装。
范围/背景深埋 vs 操作流阶段
较差 DeepMind > 提升 > (智能体:(复杂不完美环境中:(学习效率&决策鲁棒性)))
较好 (复杂不完美环境):(DeepMind > 提升 > 智能体:(学习效率 & 决策鲁棒性))
但若场景是操作流阶段:"先到 X 再做 Y",保留线性:
✅ 算法 > 能在 > 环境中 > 利用 > 模型 > 进行 > 计划
同主语强制封装
较差 (它们 > 学习 > X) > 从而 > (它们 > 使用 > Y)
较好 它们 > 学习 > X > 从而 > 使用 > Y
承前省略应被尊重。
字面语序绑架语义
较差 智能体 > (在:初期) > ((想象 > (多步:结果)) & (据此:行动))
较好 智能体 > (初期:会) > (想象 > 多步结果) & 行动
"据此"与 & 语义冗余可省略;"会在初期"重排为 (初期:会) 使修饰关系显式。
冗余括号
按 §3.7「冗余括号识别」,下列写法都可去括号:
较差 ((不可预知:问题) > 频发)
较好 不可预知:问题 > 频发
较差 (DeepMind:最新博客) > 介绍 > ((其:发表):(两篇:相关论文))
较好 DeepMind:最新博客 > 介绍 > (其:发表):(两篇:相关论文)
(`(其:发表):(两篇:相关论文)` 内的两层 `:` 分簇必须保留;外层括号可去)
较差 (智能体:学习效率) & (智能体:决策鲁棒性)
较好 智能体:学习效率 & 智能体:决策鲁棒性
较差 几个:(显著:特征)
较好 几个:显著:特征
但下列括号是结构性必需,不要去:
✅ ... > (复杂 & 规则:不明确) (`&` 在 `>` 操作数内)
✅ 显然 : (他 > 错了) (`>` 命题作 `:` 右操作数)
✅ 论文 > 促使 > (T > 认识到 > (...)) (致使嵌入命题)
✅ (其:发表):(两篇:相关论文) (连续 `:` 真实分簇)
附录:判定口诀
能回读成原句的就是对的算式。
限定什么东西是什么 →
:描述能量/顺序从哪流到哪 →>原句里本就并列 →&/|整块要被外层作用 →( )形式规则启动点:
- 命题关系别被压成定语。
- 专有名词、高频合成词(不能/没有/无法 …)别拆。
- 有歧义就封装;致使结构的嵌入命题必封装。
- 跨句连接词作
>首节点,不用:。>方向与能量/因果流同向;反向连接词(由于/because)正向化为(所以/so)。:与"的"不共存;中文标点不是分隔符。- 同主语承前省略 → 扁平
>链;主语切换 / 并列 / 多段嵌套链 → 两端封装。其他一切按原句写。