认知图：2.图构建方法

文本到认知图：图构建方法

~~把一段自然语言（句、段、整篇）压成一张可遍历的~~文档定位：规范态（spec）。

依赖：认知图：以谓词作为概念——unit 图。数据模型、节点 / 谓词分类、抽取四原则。本文档只定义"文本 → 图"的构建流程与渲染契约，不重复定义抽取规则本身。

§1 总览

1.1 输入与输出

输入：自然语言文本（一句、一段、或一整篇）。

输出：

输入~~：自然语言文本——一句、一段、或一整篇。~~unit 集合（主输出，ground truth）；
输出~~：一张图—~~图拓扑——~~节点（主体~~节点 ~~/ 论元 / 谓词）~~+ 边 + 入口标记，~~整体表达输入承载的持久事实。~~
由

依赖：unit ~~数据模型与四原则定义在~~ ~~认知图：以谓词作为概念。本文档只定义"文本 → 图"的构建过程与渲染契约，不重复抽取原则本身。~~集合派生。

一、输出形式

图的 ~~ground truth 是 unit 文本~~~~——已有抽取约定的序列化形式：~~

{主体}[谓词]{论元}, {论元}, ...
()[修饰谓词]{值}                 # 值的可查询性视情况标 {}/()

派生 M[的]{B}~~（M 可为~~ {M} 或 (M)~~，见认知图 §二.2）、同义~~ {A}[同义]{B}~~、嵌套局部 ID（u_a / u_b / ...）等同认知图 §二「数据模型」。~~

~~图示绘制只画~~~~可查询节点~~ {X}~~（不可查询修饰~~ (X) ~~通过修饰行表达，不出现在节点位置）；~~[P] ~~表示谓词、~~──▶ / └──▶ ~~等表示有向边——与 unit 文本的标记一致。~~机器消费一律以 unit ~~文本为准~~~~，图示只是辅助阅读。~~文本为准；图示仅辅助阅读。

1.2

二、记号约定

范围

~~下文示例和讨论用以下记号表达~~本文档定义：文本 → unit 图：集 + 图拓扑的构建流程、图的不变量、unit 文本与拓扑摘要的序列化格式。

不重复定义：unit 形态、谓词分类、抽取四原则——见依赖文档。

1.3 流程概览

步骤章节产物句法解析与语言层预处理 §2.1 小句序列复句拆分 §2.2 待抽取小句抽取 unit 集 §2.3 主 unit + 修饰行 + 派生 / 同义声明节点收集与角色判定 §2.4 nodes 集合、S*（入口节点集）主线选定 §2.5 每段一条 spine unit（或 null）图拓扑装配 §2.6 星形子图 + 跨段缝合多段输入处理 §2.7 段边界对齐 narrative center

1.4 记号约定

记号	含义
`{X}`	可查询节点。~~同一 node 全图唯一一个~~同一节点全图唯一一个 `{X}` 实例
`(X)`	不可查询修饰（仅出现在修饰行值或派生 M 位置，~~不作为图节点画出~~）不画为图节点）
`[P]`	谓词。每条 unit 引入独立的 `[P]` 实例（同名谓词不共享节点）
──▶	有向边：主体 ──`[P]`──▶ 论元；修饰行 ──`[P]`──▶ 值。值

── 无向边（仅 [同义] ~~例外保留无向~~ ──使用） ┄┄ ~~节点的外发尾巴：标记该节点的~~入口节点外发尾巴：标记 subject_mentions ~~在全图层面非空、向本输入之外延伸~~在全图层面非空 u_a / u_b / … 段内局部 unit ID sN.uM 跨段引用的持久 unit ID（段 N 内的 u_M） S* 入口节点集（subject 字段曾出现过的节点集合）

入口节点 / ~~仅论元节点的区分不在记号本身体现，而由~~仅论元节点的区分不在记号本身体现——由 §~~三步骤~~ 2.4 的 S* ~~集合刻画——需要展示时在节点旁加注（如~~集合刻画。需要展示时在节点旁加注 {X}*~~）或在表格中单列说明。~~{X} ~~形态相同，是为了让图示和 unit 文本完全同形。~~或在表格中单列。

三、§2 构建流程

~~输入文本 → 输出 unit 集合 + 图拓扑。共五步，前三步沿用~~ ~~认知图：以谓词作为概念~~ ~~§五抽取流程，后两步是本文档新增。~~

步骤 2.1 — 句法解析与语言层预处理

~~参照原~~按依赖文档 §五.6 步骤 1–2：识别小句 / 动词 / 论元 / 修饰 / 辖域；指代还原；~~特殊句式标准化（把字句、被字句、兼语、连动、是 / 有字句、比较句）；~~特殊句式标准化；句类识别。

多句 / ~~多段输入：跨句指代和零指代在这一步统一还原。代词不能还原时降级为占位 node~~多段输入：跨句指代与零指代在这一步统一还原。代词不能还原时降级为占位节点 ?_1 / ?_2，并打 ()[置信度](low)。

步骤 2.2 — 复句拆分

按因果 / 转折 / 时序 / 目的 / 条件 / 让步切分小句。保留连接关系，待嵌套层装回（原则依赖文档 §5.III）。

步骤 2.3 — 抽取 unit 集

逐小句产出 unit：

选谓词（归 family 基础成员）；
定主体（≥1 ~~个具体 node）~~个具体节点）；
补修饰行；
~~同时满足~~同时满足依赖文档 §四5 ~~四原则——~~~~事实优先 / 最具体标识符 / 嵌套修饰 / 自洽~~。四原则。

~~派生 node~~派生节点 M[的]{B} 在使用前先声明，渲染名 {MB} 入图。同义命名 {A}[同义]{B} 在两个标识符首次共现时声明。

派生 / 同义 ~~不是默认操作~~——不是默认操作，按以下规则触发：

派生~~：在两种情况下使用—~~派生触发条件——~~（a）~~满足任一： (a) 现有标识符在当前图里有歧义、~~需要收窄（例：~~复杂不完美的环境需要收窄； ≠(b) ~~任意环境）；（b）当前事实的重点就是~~描述当前事实的重点是描述 / ~~分类一个实体~~—分类一个实体——名词短语作主句论元（"设想 X" / "讨论 ~~X" / "考虑~~ X"）时，X 内部的修饰子句应当用派生节点层级表达，让 [属于] 把实例绑到类。
同义~~：两个~~~~独立来源~~~~的标识符首次共现（例：~~论文-IAA ↔ 《深度强化学习的想象增强智能体》、想象增强智能体架构 ↔ 想象增强智能体）。不~~用同义给派生 node 起别名—~~同义触发条件：两个独立来源的标识符首次共现。不用同义给派生节点起别名——那是 alias 不是 synonym，~~没有信息增益。~~无信息增益。

~~两种判别启发~~：判别启发：

重点是描述 vs 事件~~：去掉量词 "~~事件：去掉量词"一位 / 一个 / 一种"，看剩下的是不是个动词主导的完整句。是 → 事件型，主谓宾 + 修饰行；不是（剩下的是名词短语）→ 描述型，派生层级 + [属于]。
~~避免重复编码~~：
避免重复编码：写完一条派生 / 同义后，看是否同一事实在派生名、谓词、修饰行多处重复出现。是 → 简化掉冗余的层（要么删派生留事件，要么删事件留派生）。

反例 AA——描述错抽成事件：

—

原文：一位每天乘坐列车通勤的人（名词短语）

描述错抽成事件：原文 "一位每天乘坐列车通勤的人"（名词短语）写成 错：{通勤者}[通勤]() + ()[工具]{列车} + ()[频率](每天)——
    （把描述抽成动作，丢失"她是什么人"的分类语义。正解：的分类语义）

正：(列车通勤)[的]{人} +
    (每天)[的]{列车通勤的人}
    + {通勤者}[属于]{每天列车通勤的人}
。

反例 B B—— 派生 + 同义 + ~~事件四处重复：同句写成~~事件四处重复：

错：(列车通勤)[的]{人} +
    {列车通勤的人}[同义]{列车通勤者}    +# 同义被滥用作 alias
    {列车通勤者}[通勤]()
    + ()[工具]{列车}——同义被滥用作
    alias，（"列车通勤"编码四次）
编码四次。

段（抽取块）~~的边界~~：的边界：决定 () ~~指代的范围、决定局部~~指代范围与局部 ID u_a / u_b ~~的有效域。~~有效域。一般以原文自然段或一两句一组划段；段终止后 () 不再有指代，必须重起一条主 unit；跨段引用必须用持久 unit ~~ID。这套规则照搬认知图~~ID ~~§二.3–4，不在本文档重复。~~sN.uM。

步骤 2.4 — 节点收集与角色判定（全局）节点收集与角色判定

~~遍历输入产出的~~所有遍历输入产出的所有 unit 集合 U（跨句、跨段统一收集，不分段重置）：

nodes := ⋃ unit ∈ U {主体, 谓词, 论元, 所有修饰行的值}
# 数学集合表示,与 unit 语法 {}/() 无关
S*    := ⋃ unit ∈ U {主体}
# 含派生 / 同义 / 修饰行所属主 unit 的主体
preds := { (unit, 谓词位置) }
# 元组集合;以位置为单位,不去重

~~每个 node 的角色：~~节点角色：

n ∈ S* → ~~入口节点~~（入口节点（subject_mentions 非空，可作为反向索引入口）；
否则 → ~~仅论元节点~~（仅论元节点（只在 context_mentions 中出现）；
谓词位置一律渲染为 [P]——~~同一谓词出现两次就是两个~~同一谓词出现两次是两个 [P] 实例（边的关系类型挂在边上，不共享节点）。

派生派生节点的基础节点 ~~node 的基础 node~~ B（B（出现在 M[的]{B} 的论元位）：~~在本输入里若~~若 B 没单独作过主体，~~仍然是仅论元节点；这条派生声明本身让~~仍是仅论元节点；派生声明本身让 M 进 S*（M ~~是该 unit 的主体——若 M 标~~即使标 (M) 描述性派生，~~则虽不可独立查询但仍登记进~~仍登记进 S*）。

步骤 2.5 — 主线选定

~~在本段产出的~~在每段产出的 unit 集中~~标记一条 unit 为核心~~集中选一条为核心——~~—它是这一段的~~该段的 narrative center。~~通常是：~~常见选择：

命题态度 wrap（[认为] / [认知] / [清楚]主张] / ~~[主张] /~~ [怀疑]）整段事实的那条；
~~或因果链顶层（~~因果链顶层（最末端的 [导致] / [造成] unit）；
~~或一段就立人物~~立人物 / 立场景的描述句，主 unit 是 [属于] / [是] 的分类断言。

其余 unit ~~自动是~~分支自动为分支——~~—它们仍然是独立~~仍是独立 unit、~~有完整结构~~有完整结构与查询语义，仅叙事地位上从属于主 ~~/ 反向索引 / 查询语义，~~~~只是叙事地位上从属于主 unit~~。unit。

~~主线选定~~~~没有结构后果~~主线选定无结构后果——~~—它不改变图遍历语义，~~不改变图遍历语义，也不影响 unit 文本的 ground truth。~~它的作用是：~~作用仅三处：

~~视觉布局~~：视觉布局——核心 unit ~~横向居中排在图的主轴上，分支从主轴节点向下/~~横向居中排在图的主轴，分支从主轴节点向下 / 向上引出；
~~段查询~~：段查询——问"这段在讲什么"直接读核心 ~~unit，不必遍历全部 unit 综合；~~unit；
~~叙事中心化：让一段的核心断言和支撑细节在层级上有明确区分。~~叙事中心化——核心断言和支撑细节在层级上有明确区分。

~~主线视觉边标签~~视觉边标签 vs unit ~~文本谓词：视觉图上可用自然连接词（~~平时 / 清楚 / 造成），文本谓词：视觉图上可用自然连接词，便于人读；unit ~~文本里~~~~始终写~~文本里始终写 family ~~基础成员~~（属于 / 认为 / 导致），基础成员，便于查询。~~映射例：~~

视觉自然词	unit 文本 family 谓词
平时 / 通常 / 是	`属于` / `是`
清楚 / 知道 / 认为	`认为` / `认知` / `知道`
造成 / 引发 / 让	`导致` / `造成`
提出 / 介绍	（元话语，原则 I 降级，不上主线）

空段允许无主 ~~unit~~：unit：纯派生 / 同义声明段（如开头铺设词典）~~可能没有自然中心；这种段标记主~~可能无自然中心，标 ~~unit~~spine 为 null ~~即可。~~。

步骤 2.6 — 图拓扑装配

每条 unit {S}[P]{A_1}, ..., {A_n} 装配为一个星形子图：

{S} ── [P] ─▶ {A_1}
           ─▶ {A_2}
           ...
           ─▶ {A_n}

修饰行 ()[mod-P]{v} 挂在主 unit 的 [P] 上：

{S} ── [P] ─▶ {A}
           └── [mod-P] ─▶ {v}      # 若值为值为 (v) 不可查询修饰,显示为标签不画节点不可查询修饰时显示为标签,不画节点

嵌套 ~~—— 当~~ 嵌套：A_i ~~是局部~~为局部 ID（u_a / ~~u_b / ...）：~~u_b）时，把内层 unit 的 [P] 直接接到外层 [P] 的论元位，跳过中间节点。~~读图者沿外层~~ [P] ~~走到内层~~ [P]~~，再展开内层 unit。~~

外层：{S}[目的是]{u_a}, {u_b}
渲染：{S} ── [目的是] ─▶ [u_a 的谓词] ─▶ ...
                    └── [u_b 的谓词] ─▶ ...

派生簇 —— M[的]{B} ~~是一条普通~~作为普通 ~~unit：~~

unit

{M} ── [的] ─▶ {B}                  # M 为 {M} 时
{M} ── [的] ─▶ {B}                  # M 为 (M) 描述性派生时,M 仅以标签形式出现

~~派生 node 的渲染名~~渲染。派生节点的渲染名 {MB} 在后续 unit ~~里被引用时，复用~~里被引用时复用 {M}M 的位置——不复制 M 节点，整张图里 M 始终一个实例。

同义簇 —— {A}[同义]{B} 同样作为 unit ~~渲染。~~渲染；查询时 ≡ 索引由 同义 谓词派生（依赖文档 §六.7.2）；。图上是显式的 [同义] 节点和两端的 {X}。

~~跨段连接~~ ~~—— 当输入跨多个段时，节点（依靠全局唯一性，~~跨段连接：节点的全局唯一性（§~~四）天然把不同段产出的星形子图缝合在一起：~~3.1）天然把不同段产出的星形子图缝合到一起。第一段把 X 作主体 {X}，第二段又用 X 作论元 {X}，那两段对应的子图共用同一个 {X} ~~同时出现在两段对应的子图里——它们共用同一个实例。~~实例。

~~外发尾巴~~ —— 外发尾巴：给每个入口节点画一条 ┄┄ 尾巴，端点空悬，表示该 {X} 在全图层面有 subject_mentions 项可达本输入之外。~~如果该入口节点的所有~~若入口节点的所有 unit 都在本输入内被产出，尾巴只是占位；图被并入更大图后尾巴连到外部 unit。

整篇2.7 / 多段输入 — 先摘要再分段多段输入处理

输入超过一段时，~~直接句对句抽取段边界容易和原文物理段对不齐、跨段桥接也靠不住。~~~~先摘要再分段~~~~更稳：~~直接句对句抽取容易段边界与原文物理段错位、跨段桥接不稳。先摘要再分段：

~~摘要剥叙述外壳~~—摘要剥叙述外壳——评价词、频率词、"我们提出 / 我们展示" 类元话语丢掉，留事实骨架。
摘要每个分句 = ~~一段抽取块~~—一段抽取块——分句天然是该段的 spine 候选，段边界对齐 narrative center。
~~段间桥接由谓词承接~~—段间桥接由谓词承接——摘要叙述"问题 → 替代 → 已有解 → 本工作"的因果链时，[目的是] / [属于] / [导致] 自然落到段间。
跨段引用用持久 IDID——~~—格式~~ sN.uM（段 ~~N 内的 u_M 升格）；~~格式；段终止后 () 不再指代。

~~摘要丢什么要心里有数~~：摘要丢失的内容：强度（"通常"）、程度（"远远"）、分立能力声明（"合理样本"）会被压平。下游若依赖这些细节，回原文补 ()[量化] / ()[程度] 修饰行或独立 unit。

~~不同文体的丢弃比差异显著~~（不同文体的丢弃比（实测）：

文体丢弃比主要丢什么论文 / 综述 ~30%~~：事实密度高，抒情少；丢的主要是元话语（"我们提出~~ /元话语 ~~我们展示"）和评价副词。~~+ 科普评价副词 / 访谈 ~~~50%：修辞 / 反问 / 感叹密度高（"我不是在写诗"、"切切"）；引述句要保留事实内核但拆掉戏剧化包装。~~ 评论 / 观点 ~35%：评价副词 + ~~"我感觉 / 希望 / 请大家指教" 等元话语丢弃，但~~~~作者主观断言保留~~为元话语；作者主观断言保留为 ()[模态](希望) + ()[置信度](low)~~——评论文体下~~ [置信度](low) ~~是段标配，区别于综述默认信任作者断言。~~ 科普 / 访谈 ~50% 修辞 / 反问 / 感叹；引述句保留事实内核 文学 / 散文 70%+~~：大部分语句承载的是情感~~ 大部分情感 / ~~意象而非可入图事实，按摘要驱动只剩骨架。~~意象语句，仅剩骨架

~~抽取者按文体调激进度——论文场景默认完整保留事实层，科普场景大胆丢抒情但保留专家定义性陈述（这些往往是文章的真正内核），~~抽取者按文体调整激进度：论文场景默认完整保留事实层；评论场景默认全段挂 [证据](作者主张) + [置信度](low)。

~~完整工作示例见 §六例 5 — 一篇 9 行论文摘要 → 4 段 11 主 unit + 11 派生 / 同义 + 4 修饰行；同输入按句对句抽取会膨胀到 7 段 16 主 unit。~~

四、§3 不变量

~~构建出的图必须满足：~~构建出的图必须同时满足：

~~节点全局唯一性：同一 node 在整段输入产出的图里全局唯一一个~~节点全局唯一性——同一节点在整段输入产出的图里全局唯一一个 {X} 实例。~~一个 node 在多句多段多条~~一个节点在多句多段多条 unit 里出现，对应同一个实例。
~~谓词独立性~~：谓词独立性——同一谓词在不同 unit 里是不同 [P] 实例。"两次说'具有'"对应两个 [具有] 实例。
~~角色单调性~~：角色单调性——节点一旦进入 S*（成为入口节点），永远是入口节点，不会因后续 unit 倒退为仅论元节点。
~~修饰行从属性~~：修饰行从属性——修饰行的 [P] 必须挂在主 unit 的 [P] 上，不能直接连主体 {X}~~——否则就该升格为独立主~~；否则应升格为独立主 unit。
~~嵌套不绕路~~：嵌套不绕路——内层 unit 在外层 unit 的论元位上以"另一个 [P]"形态出现，禁止用占位 {X} 中转。
段内局部 ID ~~不外泄~~：不外泄—— u_a / u_b ~~等局部~~仅在所属段内的论元位上出现；跨段引用必须替换为 ~~ID 只在所属段内的论元位上出现；跨段引用必须替换成持久 unit ID~~sN.uM 或具体节点名。
每段恰有一条主 ~~unit~~（unit（或显式标 null）；其余 unit 全是分支。~~主线没有结构后果，仅影响视觉布局和段查询入口。~~
可视图严格 {主体} ──[谓词]──▶ {论元}~~：图示画出来的每条边都必须对应一条主~~ 形态——图示画出的每条边都对应一条主 unit，箭头两端都是显式 {节点}~~（不可查询修饰~~ (X) ~~不画为节点，仅以标签形式附着在边上）~~。出现 [谓词] X ~~这种浮空标签~~浮空标签 → ~~缺一个显式节点或一条派生~~ M[的]{B} ~~声明，~~缺一个显式节点或一条派生声明，必须补全。
~~可查询性合规：每个节点位置按认知图~~可查询性合规——节点位置标记按依赖文档 §二.2.2 标 {} 或 (...)~~；派生 node~~判定；派生节点 M[的]B ~~三条约束：(1) 渲染名~~ {MB} ~~必须通过~~三约束按依赖文档 §~~2.2 测试；(2) M 不能是纯 hedge（违反 → 改走修饰行）；(3) M 与 B 各按 standalone 是否承载信息标记，四种组合均合法。~~4.3。

违反任一条 → 抽取或装配出错。

五、可序列化形式§4 序列化形式

~~实际输出有两层。~~~~主输出 —~~

4.1 unit 文本

是文本（主输出，ground ~~truth；分段、主~~truth）

unit ~~用注释标记：~~集合 + 分段 + 主线标注，序列化为纯文本：

# 段 1   spine: u1
{想象增强}[的]{智能体}
{想象增强智能体}[需要提升]{学习效率}         # u1
()[范围]{真实世界环境}
()[程度](复杂), (不完美)
()[工具]{想象力}
()[证据]{DeepMind}

# 段 2   spine: u3
...

4.2 拓扑摘要（派生输出，可选）

~~派生输出~~可由 —unit ~~拓扑摘要（可选，给可视化渲染器消费，由主输出自动派生、不持久化）：~~文本自动派生，供可视化渲染器消费，不持久化：

graph:
  nodes:
    - id: 想象增强智能体
      entry: true                     # 入口节点（S* 成员）
      out_count: 4
    - id: 学习效率
      entry: false                    # 仅论元节点
  ...
  preds:
    - id: u1
      subject: 想象增强智能体
      predicate: 需要提升
      args: [学习效率]
      modifiers:
        范围: 复杂不完美环境
        工具: 想象力
        证据: DeepMind
  ...
  segments:
    - id: seg-1
      spine: u1                       # 段的主 unit；null 表示无主线
      branches: [u2, u3, u4, ...]     # 该段其余 unit
    ...u4]

~~两者必须一致——若不一致，以~~一致性：两层必须一致；不一致时以 unit 文本为准。

六、§5 示例

例 1 — 单句简单陈述

原文：深蓝击败卡斯帕罗夫。

unit 文本：

{深蓝}[击败]{卡斯帕罗夫}

节点角色：S* = {深蓝} → 入口节点；卡斯帕罗夫 → 仅论元节点；[击败] 是谓词实例。

~~拓扑示意：~~拓扑：

            ┄┄┄┄ {外发}
              ╲
              {深蓝} ── [击败] ─▶ {卡斯帕罗夫}

例 2 — 单句派生 + 修饰行

原文：DeepMind 通过赋予智能体想象力，提升了其在复杂不完美环境中的学习效率。

unit 文本：

(复杂不完美)[的](环境)            # M 是描述性派生 (是描述性派生（b 类评价的复合不可单独查询)类评价的复合不可单独查询）
{想象增强}[的]{智能体}            # M 是 Cc 类技术属性 — 标 {}

{想象增强智能体}[具有]{想象力}
()[证据]{DeepMind}

{想象增强智能体}[需要提升]{学习效率}
()[范围]{复杂不完美环境}          # 派生节点渲染名,作为整体 queryable
()[工具]{想象力}
()[证据]{DeepMind}

节点角色：S* = {~~复杂不完美 (~~复杂不完美（派生 M)M）、想象增强、想象增强智能体}

~~node~~节点	角色	理由
复杂不完美	~~入口 (描述性)~~入口（描述性）	派生声明 `(复杂不完美)[的]{环境}` 的主体；标 `(M)` 表"描述性派生"
想象增强	入口	派生声明 `{想象增强}[的]{智能体}` 的主体
想象增强智能体	入口	多次作主体（具有 / 需要提升）
环境	仅论元	仅作论元
智能体	仅论元	仅作论元
想象力	仅论元	论元 + 修饰行值
学习效率	仅论元	仅作论元
复杂不完美环境	仅论元	修饰行值（~~派生 node 渲染名）~~派生节点渲染名）
DeepMind	仅论元	修饰行值（证据）

~~拓扑示意：~~拓扑：

(复杂不完美) ── [的] ─▶ (环境)

{想象增强} ── [的] ─▶ {智能体}

                            ┄┄┄ {外发}
                            ╲
   {想象增强智能体} ── [具有] ─▶ {想象力}
                  │       └── [证据] ─▶ {DeepMind}
                  │
                  └── [需要提升] ─▶ {学习效率}
                              ├── [范围] ─▶ {复杂不完美环境}
                              ├── [工具] ─▶ {想象力}
                              └── [证据] ─▶ {DeepMind}

~~匹配手绘图的形态：入口节点（带~~ ┄┄ ~~尾巴）是反向索引登记点，手臂上是~~ [P] ─▶ {X}~~，多条 unit 通过共享~~ {X} ~~相连。~~(复杂不完美) 用标 () ~~标记是因为"~~是因为"复杂"+"不完美"是描述复合，~~单独不可查询，但派生整体~~单独不可查询；派生整体 {复杂不完美环境} 是可查询节点。

例 3 — 单句嵌套（意图链）

原文：DeepMind 提出 X，旨在应对真实世界的复杂性，从而提升深度强化学习的性能。

unit 文本（原则依赖文档 §5.I 元话语降级 + 原则 §5.III 意图链嵌套）：

{真实世界}[具有]{复杂性}               # u_a
{深度强化学习}[需要提升]{性能}         # u_b

{X}[目的是]{u_a}, {u_b}
()[证据]{DeepMind}

节点角色：S* = {真实世界, 深度强化学习, X} → 入口节点；其余 → 仅论元节点。

~~拓扑示意（~~拓扑（嵌套用 [P] 直连 [P]）：

{真实世界} ── [具有] ─▶ {复杂性}
                       ↑
                       │
{X} ── [目的是] ────────┤
       │               ↓
       │     {深度强化学习} ── [需要提升] ─▶ {性能}
       └── [证据] ─▶ {DeepMind}

注意 [目的是] ~~的两个论元位接的是~~~~另外两个~~的两个论元位接的是另外两个 [P]（u_a / u_b 的谓词），不是中间套 {X}——这是嵌套的几何特征。

例 4 — 跨句的全局节点缝合

原文（两句一段）：DeepMind 提出了想象增强智能体。该智能体在复杂环境中具有更高的学习效率。

unit 文本（两段抽取块，每段独立局部 ID 域；节点跨段共享）：

{想象增强}[的]{智能体}
{想象增强智能体}[同义]{DeepMind 提出的想象增强智能体}
()[证据]{DeepMind}

{想象增强智能体}[具有]{学习效率}
()[范围](环境)
()[程度](复杂)            # b 类评价 — 修饰行
()[程度](更高)            # c 类无锚比较 — 修饰行

节点角色（全局收集）：

入口节点：想象增强、想象增强智能体
仅论元节点：智能体、DeepMind、环境、学习效率

想象增强智能体 在第一段是主体（同义声明）、第二段还是主体（具有），两段共用同一实例——~~—它是同一个~~ {想象增强智能体}~~，把两段的子图缝合到一起。~~把两段子图缝合到一起。这是 §~~四不变量~~ 3.1 在跨句场景的直接体现。

~~注意第二段没有派生~~第二段没有派生 {复杂}[的]{环境}——按按依赖文档 §~~二.2~~2.3 b评价 ~~类「主观评价」、c~~/ ~~类「无锚比较」，~~无锚比较类，"复杂"和"更高"~~都应化为修饰行~~应化为修饰行 ()[程度](X)，避免引入不可查询节点 (复杂) / (更高) 进派生。

例 5 — 整篇文章（4 段）：摘要驱动 + 跨段桥接

原文（GAN-based domain adaptation 论文摘要）：

使用带有精心注释的图像数据集来训练现代机器学习算法，对于许多任务来说都是非常昂贵的。一个很有吸引力的替代方案是渲染合成数据，其中 ground-truth 注释会自动生成。不幸的是，纯粹在渲染图像上进行训练的模型通常不能推广到真实图像。为了解决这个缺点，此前有研究引入无监督的领域自适应算法，尝试在两个域之间映射表示，或者学习提取不变的特征。在这项工作中，我们提出了一种新的方法，以无监督的方式学习实现从一个域到另一个域在像素空间上的转换。我们基于生成对抗网络（GAN）的模型能够适应源域映像，就像从目标域中绘制的一样。我们的方法不仅产生了合理的样本，而且在某些无监督的域适应场景中也远远胜过最先进的技术。最后，我们展示了适应过程生成了在训练过程中没有见过的物体类别。

摘要（剥叙述外壳）

把"我们提出 / 我们展示 / 不幸的是 / 很有吸引力"等评价词与元话语丢掉、~~重复合并，剩下的事实骨架：~~重复合并：

问题：问题——训练现代 ML 算法需要精心注释的图像数据集，标注成本高。
~~替代方案的缺陷~~：替代方案的缺陷——渲染合成数据虽自动生成注释，但纯渲染图像训练的模型在真实图像上泛化差。
~~已有解：无监督领域自适应算法—~~已有解——无监督领域自适应算法，通过映射两域表示或提取不变特征实现。
~~本工作~~：本工作——基于 GAN 的模型，在像素空间做源域 → 目标域无监督转换；属于 UDA 新成员，超越 SOTA，并能生成训练时未见的物体类别。

四块 = 4 段抽取块。每块对应一条 spine。

视觉拓扑

~~一张整图。先列派生 / 同义簇（建立所有渲染名），再画主断言；每条画出来的边都对应一条主 unit。~~

派生 / 同义：
   {现代} ── [的] ─▶ {机器学习算法}              {现代机器学习算法} ── [的] ─▶ (训练)
   {精心注释} ── [的] ─▶ {图像数据集}            {精心注释图像数据集} ── [的] ─▶ (替代方案)
   {渲染} ── [的] ─▶ {合成数据}                  {渲染} ── [的] ─▶ (图像)
   {在渲染图像上} ── [的] ─▶ (训练)              {在渲染图像上训练} ── [的] ─▶ (模型)
   {无监督} ── [的] ─▶ {领域自适应算法}          {基于 GAN} ── [的] ─▶ (模型)
   {GAN} ── [同义] ── {生成对抗网络}


{现代机器学习算法训练} ── [需要] ─▶ {精心注释图像数据集} ── [具有] ─▶ {高成本}
                                              │
                                              │ [的]
                                              ▼
                                  {精心注释图像数据集的替代方案}
                                              ▲
                                              │ [属于]
                                              │
                                  {渲染合成数据} ── [具有] ─▶ {自动生成的 ground-truth 注释}


{在渲染图像上训练的模型} ── [需要] ─▶ {泛化到真实图像的能力}
                                              ▲
                                              │ [目的是]
                                              │
      {映射两域表示}, {提取不变特征} ◀── [通过] ── {无监督领域自适应算法}
                                                       ▲              ▲
                                                       │ [属于]       │ [属于]
                                                       │              │
                                                {基于 GAN 的模型} ── [优于] ─▶ {最先进技术}
                                                   ★ spine                  └── [范围] ─▶ {某些无监督域适应场景}
                                                       │
                                                       ├── [实现] ─▶ {源域到目标域的像素空间无监督转换}  ★
                                                       │
                                                       └── [具有] ─▶ {生成训练未见类别能力}

整篇 spine 落在 {基于 GAN 的模型} ── [实现] ─▶ {源域到目标域的像素空间无监督转换}——本工作的 headline 断言。共 12 主 unit + 4 修饰行 + 11 派生 / 同义。

~~证据修饰行未画在图上，规则统一：~~证据修饰行按统一规则：段 ~~3 (无监督领域自适应算法)~~ 3（无监督领域自适应算法）系列 ()[证据]{此前研究}；段 ~~4 (~~4（基于 GAN ~~的模型)~~ 的模型）系列 ()[证据]{本工作}。

~~注意可查询性标记：~~可查询性标记：{现代} / {无监督} / {渲染} / {GAN} ~~都通过~~都通过依赖文档 §2.2 ~~测试（独立承载信息）；~~测试；(精心注释) / (在渲染图像上) / (基于 GAN) 是描述性派生 M（standalone 不承载，但派生整体 {...} 通过测试）；(模型) / (训练) / (图像) 是通用角色名词（standalone 不承载，~~但通过修饰特化后渲染整体承载）~~通过修饰特化后渲染整体承载）。

关系展开（每个箭头一行）

# 派生 / 同义（11）
{现代}[的]{机器学习算法}
{现代机器学习算法}[的](训练)
{精心注释}[的]{图像数据集}
{精心注释图像数据集}[的](替代方案)
{渲染}[的]{合成数据}
{渲染}[的](图像)
{在渲染图像上}[的](训练)
{在渲染图像上训练}[的](模型)
{无监督}[的]{领域自适应算法}
{基于 GAN}[的](模型)
{GAN}[同义]{生成对抗网络}

# 段 1 — 问题
u1.1  {现代机器学习算法训练}[需要]{精心注释图像数据集}
u1.2  {精心注释图像数据集}[具有]{高成本}

# 段 2 — 替代方案缺陷
u2.1  {渲染合成数据}[属于]{精心注释图像数据集的替代方案}
u2.2  {在渲染图像上训练的模型}[需要]{泛化到真实图像的能力}
u2.3  {渲染合成数据}[具有]{自动生成的 ground-truth 注释}

# 段 3 — 已有解
u3.1  {无监督领域自适应算法}[目的是]{s2.u2}              # 嵌套到 u2.2 的 [需要]
u3.2  {无监督领域自适应算法}[通过]{映射两域表示}, {提取不变特征}

# 段 4 — 本工作
u4.1  {基于 GAN 的模型}[属于]{无监督领域自适应算法}
u4.2  {基于 GAN 的模型}[实现]{源域到目标域的像素空间无监督转换}   ★ headline spine
u4.3  {基于 GAN 的模型}[优于]{最先进技术}
        ()[范围]{某些无监督域适应场景}                    # 修饰 u4.3 的 [优于]
u4.4  {基于 GAN 的模型}[具有]{生成训练未见类别能力}
u4.5  {最先进技术}[属于]{无监督领域自适应算法}

24 行 = 11 派生 / 同义 + 12 主 unit + 1 修饰行。[证据] ~~系列修饰行（段 3 → 此前研究；段 4 → 本工作）按统一规则补在每条所属~~系列修饰行按统一规则补在所属 unit 上，未单列。

跨段桥接

5 条 unit 把 4 段缝起来：

u2.1 {渲染合成数据}[属于]{精心注释图像数据集的替代方案} — 段 2 ↔ 段 1，~~靠派生节点~~ {精心注释图像数据集}[的]{替代方案} ~~链回。~~靠派生节点链回；
u3.1 {无监督领域自适应算法}[目的是]{s2.u2} — 段 3 → 段 ~~2，UDA 的目的就是解决段 2 的 s2.u2。~~2；
u4.1 {基于 GAN 的模型}[属于]{无监督领域自适应算法} — 段 4 → 段 3。3；
u4.5 {最先进技术}[属于]{无监督领域自适应算法} — 段 4 → 段 3。

沿 u4.1 / u4.5 的 [属于] 闭包，u3.1 的 [目的是 s2.u2] 自动继承到 {基于 GAN 的模型} 与 {最先进技术}——无须再画显式 [目的是 s2.u2] 边。

抽取决策注记

~~元话语降级~~~~："我们提出 / 我们展示 / 此前有研究" 全按原则 I 降到~~ ()[证据]（{本工作} / {此前研究}）。 ~~摘要分句 = 段 spine~~~~：4 段对应 4 条 spine；整篇 spine 落在 u4.2。~~ ~~跨段引用用~~ sN.uM~~：u3.1 引用段 2 的 s2.u2；u_a / u_b 这类段内局部 ID 不能跨段，必须升格为持久 ID。~~ ~~派生节点搭概念坐标系~~：{精心注释图像数据集} / {渲染合成数据} / {基于 GAN 的模型} ~~都是派生节点（M 部分含~~ (精心注释) / (在渲染图像上) / (基于 GAN) ~~描述性派生），让跨段引用能落到具体标识符。~~

摘要丢失什么摘要丢失的内容

原文表达	丢失的认知内容	严格抽取应补
"通常不能泛化"	强度（"通常" ≠ "一定"）	`()[量化](大多数)` 或 `()[置信度]`
"远远胜过"	比较程度	`()[程度](远远)`
"合理的样本"	一项独立的能力声明	单独 unit `(基于 GAN 的模型)[具有](合理样本生成能力)`

下游若依赖这些细节（研究综述强度对比、模型能力清单），从摘要回原文补全。~~摘要驱动的目标是知识图谱的"长期可推理"，~~摘要驱动的目标是知识图谱的长期可推理，不是完整还原原文。

摘要驱动 vs 句对句抽取

维度	句对句	摘要驱动
段数	7	4
主 unit 数	16	11
修饰行	多（量化 / 程度 / 置信度 / 方式）	仅必要的 `[范围]` / `[证据]`
丢弃	几乎不丢，全保留为修饰行	评价词 / 频率 / 程度 / 重复事实丢
适用	需要追溯到原文具体表述	进入领域知识库，做长期推理

~~摘要驱动收益：段边界天然对齐 narrative center；派生 node 收敛（句对句版的 "合理样本生成能力" / "适应过程" 等子节点直接合并到~~ [实现]转换 与 [具有]{生成未见类别能力}~~）；跨段桥接显式（摘要的因果链 →~~ [目的是] / [属于] ~~自然落到段间）。~~

七、trade-§6 Trade-off

取舍内容

图的稀疏 vs 稠密：单句输入产出小图（5–15 节点）、入口节点的 ┄┄ 尾巴大多是占位；整篇文章产出大图、跨段缝合后入口节点之间连接稠密、~~尾巴语义实化。规模差异天然，不是错误。~~尾巴语义实化

谓词不共享 [P]：同义反复的谓词会让图上出现多个相同标签的 [P] 实例。~~优势是边类型清晰、不会因共享谓词节点引起拓扑歧义；~~优势：边类型清晰、不会因共享谓词节点引起拓扑歧义。查询时再沿 同义 + 的 ~~闭包归并。~~闭包归并

~~修饰行~~修饰行视觉密度 [P] ~~视觉密度~~：

unit 修饰行多时一条 [P] 上会挂 4–6 个子 [P]——。可选折叠为单行标签 (范围: X, 工具: Y, 证据: Z)，但折叠版只用于显示，~~不进图遍历。~~不进图遍历

派生派生节点的双重身份 ~~node 的双重身份~~：

M[的]{B} 既贡献 M（入口；M 为 {M} ~~时是独立可查询节点，~~时独立可查询，为 (M) ~~时是描述性派生 M）~~时描述性派生），又让 {MB} 渲染名指向 M 实例。~~查图时基础 node~~查图时基础节点 B 上不会展开 M ~~的具体断言（参照~~的具体断言 ~~§三谓词分类，~~的 ~~不传递）。~~ 不渲染语言层信息

~~不渲染语言层信息~~：

焦点 / 主题前置、口吻、句末语气词、被动主动不入图。~~原则上图与抽取~~原则上图与 unit 集等价，~~不多不少。~~不多不少

段边界由抽取者决定：原文的自然段往往不等于抽取段。把哪些句子合一段（共享 () 指代和局部 ID）是抽取者的工程判断——段太大局部 ID 容易冲突，段太小同句的修饰行被迫升格为重复主 ~~unit。~~unit

主线选定 vs 多焦点段：主 unit 标记要求抽取者主观判断"本段最核心是哪条断言"。~~叙事性强的段（人物 / 因果 / 论证）容易选定；~~叙事性强的段易选定；纯枚举段（条目列表 / 平行陈述）~~可能没有自然中心，~~可能无自然中心，主 unit 标 null，所有 unit ~~平行。例~~平行 5

是有 ~~headline 断言的论文摘要，整篇 spine =~~ {基于 GAN 的模型}[实现]{源域到目标域的像素空间无监督转换}~~，立得住；svo_demo 句 4–6 是论文架构介绍的平行枚举，难单选主 unit，可标~~ null。

~~主线视觉边标签~~视觉边标签 vs unit 谓词~~：主线视觉用自然连接词（~~平时 ~~/ 清楚 / 造成）让人读着顺，~~视觉用自然连接词让人读着顺，unit 文本写 family ~~谓词（~~属于 / 认为 / 导致~~）让查询走~~谓词让查询走 family 闭包。映射不强制一对一——抽取者用判断力让两边都自然，关键是 unit 文本的 ground truth ~~仍可机器消费。~~仍可机器消费