文本到认知图：图构建方法

把一段自然语言（句、段、整篇）压成一张可遍历的 unit 图。 
 
 
 输入 ：自然语言文本——一句、一段、或一整篇。 
 
 
 输出 ：一张图——节点（主体 / 论元 / 谓词）+ 边 + 入口标记，整体表达输入承载的持久事实。 
 
 
 依赖 ：unit 数据模型与四原则定义在 认知图：以谓词作为概念 。本文档只定义"文本 → 图"的构建过程与渲染契约，不重复抽取原则本身。 
 
 
 
 一、输出形式 
 图的 ground truth 是 unit 文本 ——已有抽取约定的序列化形式： 
 (主体)[谓词](论元, 论元, ...)
()[修饰谓词](值)
 
 派生 (M)[的](B) 、同义 (A)[同义](B) 、嵌套局部 ID（u_a / u_b / ...）等同 §二「数据模型」。 
 图示绘制也只用一套记号—— (X) 表示节点、 [P] 表示谓词、 ── / └── 等表示边——与 unit 文本的括号完全一致。 机器消费一律以 unit 文本为准 ，图示只是辅助阅读。 
 
 二、记号约定 
 下文示例和讨论用以下记号表达 unit 图： 
 
 
 
 记号 
 含义 
 
 
 
 
 (X) 
 节点。同一 node 全图唯一一个 (X) 实例 
 
 
 [P] 
 谓词。每条 unit 引入独立的 [P] 实例（同名谓词不共享节点） 
 
 
 ── 
 边：主体 — [P] — 论元；修饰行 [P] — 值 
 
 
 ┄┄ 
 节点的外发尾巴：标记该节点的 subject_mentions 在全图层面非空、向本输入之外延伸 
 
 
 
 入口节点 / 仅论元节点的区分 不在记号本身体现，而由 §三 步骤 4 的 S* 集合刻画——需要展示时在节点旁加注（如 (X)* ）或在表格中单列说明。 (X) 形态相同，是为了让图示和 unit 文本完全同形。 
 
 三、构建流程 
 输入文本 → 输出 unit 集合 + 图拓扑。共五步，前三步沿用 认知图：以谓词作为概念 §五 抽取流程，后两步是本文档新增。 
 步骤 1 — 句法解析与语言层预处理 
 参照原 §五.1–2：识别小句 / 动词 / 论元 / 修饰 / 辖域；指代还原；特殊句式标准化（把字句、被字句、兼语、连动、是 / 有字句、比较句）；句类识别。 
 多句 / 多段输入 ：跨句指代和零指代在这一步统一还原。代词不能还原时降级为占位 node ?_1 / ?_2 ，并打 ()[置信度](low) 。 
 步骤 2 — 复句拆分 
 按因果 / 转折 / 时序 / 目的 / 条件 / 让步切分小句。保留连接关系，待嵌套层装回（原则 III）。 
 步骤 3 — 抽取 unit 集 
 逐小句产出 unit： 
 
 
 选谓词（归 family 基础成员）； 
 
 
 定主体（≥1 个具体 node）； 
 
 
 补修饰行； 
 
 
 同时满足 §四 四原则—— 事实优先 / 最具体标识符 / 嵌套修饰 / 自洽 。 
 
 
 派生 node (M)[的](B) 在使用前先声明，渲染名 MB 入图。同义命名 (A)[同义](B) 在两个标识符首次共现时声明。 
 派生 / 同义 不是默认操作 ——按以下规则触发： 
 
 
 派生 ：在两种情况下使用——（a）现有标识符在当前图里有歧义、需要收窄（例： 复杂不完美的环境 ≠ 任意环境）；（b）当前事实的重点就是 描述 / 分类一个实体 ——名词短语作主句论元（"设想 X" / "讨论 X" / "考虑 X"）时，X 内部的修饰子句应当用派生节点层级表达，让 [属于] 把实例绑到类。 
 
 
 同义 ：两个 独立来源 的标识符首次共现（例： 论文-IAA ↔ 《深度强化学习的想象增强智能体》 、 想象增强智能体架构 ↔ 想象增强智能体 ）。 不 用同义给派生 node 起别名——那是 alias 不是 synonym，没有信息增益。 
 
 
 两种判别启发 ： 
 
 重点是描述 vs 事件 ：去掉量词 "一位 / 一个 / 一种"，看剩下的是不是个动词主导的完整句。是 → 事件型，主谓宾 + 修饰行；不是（剩下的是名词短语）→ 描述型，派生层级 + [属于] 。 
 避免重复编码 ：写完一条派生 / 同义后，看是否同一事实在派生名、谓词、修饰行多处重复出现。是 → 简化掉冗余的层（要么删派生留事件，要么删事件留派生）。 
 
 反例 A — 描述错抽成事件 ：原文 "一位每天乘坐列车通勤的人"（名词短语）写成 (通勤者)[通勤]() + [工具](列车) + [频率](每天) ——把描述抽成动作，丢失"她是什么人"的分类语义。正解： (列车通勤)[的](人) + (每天)[的](列车通勤的人) + (通勤者)[属于](每天列车通勤的人) 。 
 反例 B — 派生 + 同义 + 事件四处重复 ：同句写成 (列车通勤)[的](人) + (列车通勤的人)[同义](列车通勤者) + (列车通勤者)[通勤]() + [工具](列车) ——同义被滥用作 alias，"列车通勤" 编码四次。 
 段（抽取块）的边界 ：决定 () 指代的范围、决定局部 ID u_a / u_b 的有效域。一般以原文自然段或一两句一组划段；段终止后 () 不再有指代，必须重起一条主 unit；跨段引用必须用持久 unit ID。这套规则照搬 §二.2–3，不在本文档重复。 
 步骤 4 — 节点收集与角色判定（全局） 
 遍历输入产出的 所有 unit 集合 U（跨句、跨段统一收集，不分段重置）： 
 nodes := ⋃ unit ∈ U {主体, 谓词, 论元, 所有修饰行的值}
S* := ⋃ unit ∈ U {主体} # 含派生 / 同义 / 修饰行所属主 unit 的主体
preds := { (unit, 谓词位置) } # 注意：以位置为单位，不去重
 
 每个 node 的角色： 
 
 
 n ∈ S* → 入口节点 （ subject_mentions 非空，可作为反向索引入口） 
 
 
 否则 → 仅论元节点 （只在 context_mentions 中出现） 
 
 
 谓词位置一律渲染为 [P] ——同一谓词出现两次就是两个 [P] 实例（边的关系类型挂在边上，不共享节点） 
 
 
 派生 node 的基础 node B （出现在 (M)[的](B) 的论元位）：在本输入里若 B 没单独作过主体，仍然是仅论元节点；这条派生声明本身让 M 进 S*（M 是该 unit 的主体）。 
 步骤 5 — 主线选定 
 在本段产出的 unit 集中 标记一条 unit 为核心 ——它是这一段的 narrative center。通常是： 
 
 命题态度 wrap（ [认为] / [认知] / [清楚] / [主张] / [怀疑] ）整段事实的那条； 
 或因果链顶层（最末端的 [导致] / [造成] unit）； 
 或一段就立人物 / 立场景的描述句，主 unit 是 [属于] / [是] 的分类断言。 
 
 其余 unit 自动是 分支 ——它们仍然是独立 unit、有完整结构 / 反向索引 / 查询语义， 只是叙事地位上从属于主 unit 。 
 主线选定 没有结构后果 ——它不改变图遍历语义，也不影响 unit 文本的 ground truth。它的作用是： 
 
 视觉布局 ：核心 unit 横向居中排在图的主轴上，分支从主轴节点向下/向上引出； 
 段查询 ：问"这段在讲什么"直接读核心 unit，不必遍历全部 unit 综合； 
 叙事中心化 ：让一段的核心断言和支撑细节在层级上有明确区分。 
 
 主线视觉边标签 vs unit 文本谓词 ：视觉图上可用自然连接词（ 平时 / 清楚 / 造成 ），便于人读；unit 文本里 始终写 family 基础成员 （ 属于 / 认为 / 导致 ），便于查询。映射例： 
 
 
 
 视觉自然词 
 unit 文本 family 谓词 
 
 
 
 
 平时 / 通常 / 是 
 属于 / 是 
 
 
 清楚 / 知道 / 认为 
 认为 / 认知 / 知道 
 
 
 造成 / 引发 / 让 
 导致 / 造成 
 
 
 提出 / 介绍 
 （元话语，原则 I 降级，不上主线） 
 
 
 
 空段允许无主 unit ：纯派生 / 同义声明段（如开头铺设词典）可能没有自然中心；这种段标记主 unit 为 null 即可。 
 步骤 6 — 图拓扑装配 
 每条 unit (S)[P](A_1, ..., A_n) 装配为一个星形子图： 
 (S) ── [P] ── (A_1)
 ── (A_2)
 ...
 ── (A_n)
 
 修饰行 ()[mod-P](v) 挂在主 unit 的 [P] 上： 
 (S) ── [P] ── (A)
 └── [mod-P] ── (v)
 
 嵌套 —— 当 A_i 是局部 ID（u_a / u_b / ...）：把内层 unit 的 [P] 直接接到外层 [P] 的论元位，跳过中间节点。读图者沿外层 [P] 走到内层 [P] ，再展开内层 unit。 
 外层：(S)[目的是](u_a, u_b)
渲染：(S) ── [目的是] ── [u_a 的谓词] ── ...
 └── [u_b 的谓词] ── ...
 
 派生簇 —— (M)[的](B) 是一条普通 unit： 
 (M) ── [的] ── (B)
 
 派生 node 的渲染名 MB 在后续 unit 里被引用时，复用 (M) 的位置——不复制 M 节点，整张图里 M 始终一个实例。 
 同义簇 —— (A)[同义](B) 同样作为 unit 渲染。查询时 ≡ 索引由 同义 谓词派生（§六.2）；图上是显式的 [同义] 节点和两端的 (X) 。 
 跨段连接 —— 当输入跨多个段时，节点（依靠全局唯一性，§四）天然把不同段产出的星形子图缝合在一起：第一段把 X 作主体 (X) ，第二段又用 X 作论元 (X) ，那 (X) 同时出现在两段对应的子图里——它们共用同一个实例。 
 外发尾巴 —— 给每个入口节点画一条 ┄┄ 尾巴，端点空悬，表示该 (X) 在全图层面有 subject_mentions 项可达本输入之外。如果该入口节点的所有 unit 都在本输入内被产出，尾巴只是占位；图被并入更大图后尾巴连到外部 unit。 
 整篇 / 多段输入 — 先摘要再分段 
 输入超过一段时，直接句对句抽取段边界容易和原文物理段对不齐、跨段桥接也靠不住。 先摘要再分段 更稳： 
 
 摘要剥叙述外壳 ——评价词、频率词、"我们提出 / 我们展示" 类元话语丢掉，留事实骨架。 
 摘要每个分句 = 一段抽取块 ——分句天然是该段的 spine 候选，段边界对齐 narrative center。 
 段间桥接由谓词承接 ——摘要叙述"问题 → 替代 → 已有解 → 本工作"的因果链时， [目的是] / [属于] / [导致] 自然落到段间。 
 跨段引用用持久 ID ——格式 sN.uM （段 N 内的 u_M 升格）；段终止后 () 不再指代。 
 
 摘要丢什么要心里有数 ：强度（"通常"）、程度（"远远"）、分立能力声明（"合理样本"）会被压平。下游若依赖这些细节，回原文补 ()[量化] / ()[程度] 修饰行或独立 unit。 
 完整工作示例见 §六 例 6 — 一篇 9 行论文摘要 → 4 段 11 主 unit + 11 派生 / 同义 + 4 修饰行；同输入按句对句抽取会膨胀到 7 段 16 主 unit。 
 
 四、不变量 
 构建出的图必须满足： 
 
 节点全局唯一性 ：同一 node 在整段输入产出的图里全局唯一一个 (X) 实例。一个 node 在多句多段多条 unit 里出现，对应同一个实例。 
 谓词独立性 ：同一谓词在不同 unit 里是不同 [P] 实例。"两次说'具有'"对应两个 [具有] 实例。 
 角色单调性 ：节点一旦进入 S*（成为入口节点），永远是入口节点，不会因后续 unit 倒退为仅论元节点。 
 修饰行从属性 ：修饰行的 [P] 必须挂在主 unit 的 [P] 上，不能直接连主体 (X) ——否则就该升格为独立主 unit。 
 嵌套不绕路 ：内层 unit 在外层 unit 的论元位上以"另一个 [P] "形态出现，禁止用占位 (X) 中转。 
 段内局部 ID 不外泄 ： u_a / u_b 等局部 ID 只在所属段内的论元位上出现；跨段引用必须替换成持久 unit ID 或具体节点名。 
 每段恰有一条主 unit （或显式标 null ）；其余 unit 全是分支。主线没有结构后果，仅影响视觉布局和段查询入口。 
 可视图严格 (主体)──[谓词]──▶(论元) ：图示画出来的每条边都必须对应一条主 unit，箭头两端都是显式 (节点) 。出现 [谓词] X 这种浮空标签 → 缺一个显式节点或一条派生 (M)[的](B) 声明，必须补全。 
 
 违反任一条 → 抽取或装配出错。 
 
 五、可序列化形式 
 实际输出有两层。 主输出 — unit 文本 是 ground truth；分段、主 unit 用注释标记： 
 # 段 1 spine: u1
(想象增强)[的](智能体)
(想象增强智能体)[需要提升](学习效率) # u1
()[范围](复杂不完美环境)
()[工具](想象力)
()[证据](DeepMind)

# 段 2 spine: u3
...
 
 派生输出 — 拓扑摘要 （可选，给可视化渲染器消费，由主输出自动派生、不持久化）： 
 graph:
 nodes:
 - id: 想象增强智能体
 entry: true # 入口节点（S* 成员）
 out_count: 4
 - id: 学习效率
 entry: false # 仅论元节点
 ...
 preds:
 - id: u1
 subject: 想象增强智能体
 predicate: 需要提升
 args: [学习效率]
 modifiers:
 范围: 复杂不完美环境
 工具: 想象力
 证据: DeepMind
 ...
 segments:
 - id: seg-1
 spine: u1 # 段的主 unit；null 表示无主线
 branches: [u2, u3, u4, ...] # 该段其余 unit
 ...
 
 两者必须一致——若不一致，以 unit 文本为准。 
 
 六、示例 
 例 1 — 单句简单陈述 
 原文： 深蓝击败卡斯帕罗夫。 
 unit 文本： 
 (深蓝)[击败](卡斯帕罗夫)
 
 节点角色：S* = {深蓝} → 入口节点；卡斯帕罗夫 → 仅论元节点； [击败] 是谓词实例。 
 拓扑示意： 
 ┄┄┄┄ (外发)
 ╲
 (深蓝) ── [击败] ── (卡斯帕罗夫)
 
 例 2 — 单句派生 + 修饰行 
 原文： DeepMind 通过赋予智能体想象力，提升了其在复杂不完美环境中的学习效率。 
 unit 文本（取自 svo_demo_0_processed.txt 句 1）： 
 (复杂不完美)[的](环境)
(想象增强)[的](智能体)

(想象增强智能体)[具有](想象力)
()[证据](DeepMind)

(想象增强智能体)[需要提升](学习效率)
()[范围](复杂不完美环境)
()[工具](想象力)
()[证据](DeepMind)
 
 节点角色：S* = {复杂不完美, 想象增强, 想象增强智能体} 
 
 
 
 node 
 角色 
 理由 
 
 
 
 
 复杂不完美 
 入口 
 派生声明 (复杂不完美)[的](环境) 的主体 
 
 
 想象增强 
 入口 
 派生声明 (想象增强)[的](智能体) 的主体 
 
 
 想象增强智能体 
 入口 
 多次作主体（具有 / 需要提升） 
 
 
 环境 
 仅论元 
 仅作论元 
 
 
 智能体 
 仅论元 
 仅作论元 
 
 
 想象力 
 仅论元 
 论元 + 修饰行值 
 
 
 学习效率 
 仅论元 
 仅作论元 
 
 
 复杂不完美环境 
 仅论元 
 修饰行值（派生 node 渲染名） 
 
 
 DeepMind 
 仅论元 
 修饰行值（证据） 
 
 
 
 拓扑示意： 
 (复杂不完美) ── [的] ── (环境)

(想象增强) ── [的] ── (智能体)

 ┄┄┄ (外发)
 ╲
 (想象增强智能体) ── [具有] ── (想象力)
 │ └── [证据] ── (DeepMind)
 │
 └── [需要提升] ── (学习效率)
 ├── [范围] ── (复杂不完美环境)
 ├── [工具] ── (想象力)
 └── [证据] ── (DeepMind)
 
 匹配手绘图的形态：入口节点（带 ┄┄ 尾巴）是反向索引登记点，手臂上是 [P] ── (X) ，多条 unit 通过共享 (X) 相连。 
 例 3 — 单句嵌套（意图链） 
 原文： DeepMind 提出 X，旨在应对真实世界的复杂性，从而提升深度强化学习的性能。 
 unit 文本（原则 I 元话语降级 + 原则 III 意图链嵌套）： 
 (真实世界)[具有](复杂性) # u_a
(深度强化学习)[需要提升](性能) # u_b

(X)[目的是](u_a, u_b)
()[证据](DeepMind)
 
 节点角色：S* = {真实世界, 深度强化学习, X} → 入口节点；其余 → 仅论元节点。 
 拓扑示意（嵌套用 [P] 直连 [P] ）： 
 (真实世界) ── [具有] ── (复杂性)
 ↑
 │ (作为论元位)
(X) ── [目的是] ────────┤
 │ ↓
 │ (深度强化学习) ── [需要提升] ── (性能)
 └── [证据] ── (DeepMind)
 
 注意 [目的是] 的两个论元位接的是 另外两个 [P] （u_a / u_b 的谓词），不是中间套 (X) ——这是嵌套的几何特征。 
 例 4 — 跨句的全局节点缝合 
 原文（两句一段）： DeepMind 提出了想象增强智能体。该智能体在复杂环境中具有更高的学习效率。 
 unit 文本（两段抽取块，每段独立局部 ID 域；节点跨段共享）： 
 (想象增强)[的](智能体)
(想象增强智能体)[同义](DeepMind 提出的想象增强智能体)
()[证据](DeepMind)
 
 (复杂)[的](环境)

(想象增强智能体)[具有](学习效率)
()[范围](复杂环境)
()[程度](更高)
 
 节点角色（全局收集）： 
 
 
 入口节点：想象增强、想象增强智能体、复杂 
 
 
 仅论元节点：智能体、DeepMind、环境、学习效率、复杂环境 
 
 
 想象增强智能体 在第一段是主体（同义声明）、第二段还是主体（具有）——它是同一个 (想象增强智能体) ，把两段的子图缝合到一起。这是 §四 不变量 1 在跨句场景的直接体现。 
 例 5 — 整段（三句）综合：主线 + 分支组织 
 原文： 
 
 设想一位每天乘坐列车通勤的人。大多数早晨，她的列车都能准时发车，她能轻松有备地赶上早会。但她清楚，一旦有一点意外发生——机械故障、信号失灵，甚至只是碰到雨天——都可能扰乱她原本的模式，造成迟到或慌乱。 
 
 这一整段的核心 narrative arc 是 她清楚一旦意外发生会扰乱模式造成迟到 / 慌乱 ——句 1 描述她是什么人是 setup，句 2 立常态也是 setup，句 3 是核心断言。整段抽成 一条主线 + 多条分支 ，主线由命题态度 wrap 嵌套因果链。 
 主线（spine） 
 整段共 3 条 spine units，对应视觉主轴上的 3 条边： 
 # SPINE
(她)[属于](每天列车通勤的人) # spine.1 视觉边 [平时]
(她)[认为](u_c) # spine.2 视觉边 [清楚]
(u_b)[导致](迟到, 慌乱) # spine.3 = u_c 视觉边 [造成]
()[模态](可能)
 
 视觉边标签 平时 / 清楚 / 造成 来自原文，unit 文本里规范化到 family 谓词 属于 / 认为 / 导致 。 
 嵌套因果链（spine.2 / spine.3 内部） 
 (意外)[发生]() # u_a
()[量化](一点)

(u_a)[扰乱](通勤者原本模式) # u_b
()[模态](可能)

(u_b)[导致](迟到, 慌乱) # u_c ← 同 spine.3
()[模态](可能)
 
 (她)[认为](u_c) 通过 u_c → u_b → u_a 的反向链，自动覆盖整条因果链——不需要写成 [认为](u_a, u_b, u_c) 把每节点都列出来。 
 分支（独立 unit，叙事地位从属于主线） 
 # 分支：(她) 的描述（D 决定）
(列车通勤)[的](人)
(每天)[的](列车通勤的人)

# 分支：意外的子类（C 决定）
(机械故障)[属于](意外)
(信号失灵)[属于](意外)
(雨天)[属于](意外)

# 分支：(她) 的原本模式
(她)[的](原本模式)

# 分支：常态背景（句 2）
(列车)[发车]()
()[方式](准时)
()[量化](大多数早晨)
()[模态](能)

(她)[赶上](早会)
()[方式](轻松, 有备)
()[模态](能)
()[量化](大多数早晨)
 
 视觉拓扑 
 按"主轴 + 各节点分支"整合排列，全部以 unit 文本表达。修饰行 ()[mod-P](v) 缩进 2 格挂在上方最近的一条主 unit 的 [P] 上；视觉边标签写在 # 注释里，不进入语法。 
 # 主轴 spine
(她)[属于](每天列车通勤的人) # spine.1 视觉: 平时
(她)[认为](u_c) # spine.2 视觉: 清楚
(u_b)[导致](迟到, 慌乱) # spine.3 = u_c 视觉: 造成
 ()[模态](可能)

# spine.2 内部嵌套链
(意外)[发生]() # u_a
 ()[量化](一点)
(u_a)[扰乱](通勤者原本模式) # u_b
 ()[模态](可能)
(u_b)[导致](迟到, 慌乱) # u_c

# (她) 节点向下分支（D 决定）
(列车通勤)[的](人)
(每天)[的](列车通勤的人)
(她)[的](原本模式)

# (她) 节点的常态分支
(她)[赶上](早会)
 ()[方式](轻松, 有备)
 ()[模态](能)
 ()[量化](大多数早晨)

# (列车) 节点的常态分支
(列车)[发车]()
 ()[方式](准时)
 ()[量化](大多数早晨)
 ()[模态](能)

# (意外) 节点向下分支（C 决定）
(机械故障)[属于](意外)
(信号失灵)[属于](意外)
(雨天)[属于](意外)
 
 抽取决策注记 
 
 主线选定 — A.a 单一核心断言 ：本段是说服性叙述，核心是 "她清楚一条规则"——主 unit 选 (她)[认为](u_c) 。 属于 / 导致 也上主线是因为它们共享 (她) 起点和 (迟到, 慌乱) 终点，构成完整 narrative arc；不是另立两段。 
 B 主线规范化 ：视觉用 平时 / 清楚 / 造成 让人读得自然；unit 文本写 family 谓词 属于 / 认为 / 导致 ，让查询沿 family 闭包仍能命中。 
 C 子类独立 ： 机械故障 / 信号失灵 / 雨天 写成 3 条 [属于] unit（不压成 (意外) 节点的 [子类](机械故障, 信号失灵, 雨天) 修饰行），保证 "意外的所有子类" 是图遍历一步。 
 D (她) 的描述独立 ：派生 + [属于] 链立人物——不降为 (她) 节点的 [每天行为](乘列车) 修饰行。这条选择保证 "每天列车通勤的人" 作为类，能挂上 (她) 赶上 等其他实例的常态属性供继承。 
 (她)[认为](u_c) 单论元嵌套 ：u_c → u_b → u_a 反向可达，主线只需写终点 unit ID；不重复 [认为](u_a, u_b, u_c) 。 
 常态背景属于分支 ：句 2 的 (列车)[发车]() / (她)[赶上](早会) 不上主线——它们是 setup，不是核心断言。视觉上挂在 (她) / (列车) 节点旁。 
 元话语 设想 ：原则 I 降级，不写 (读者)[设想](...) 。整段假说性可挂 ()[置信度](假设) 给主 unit。 
 跨句指代 她 ：步骤 1 还原为 (她)（直接作为主体 ID）；图里没有 "她" 这个代词节点。 
 
 节点角色总览 
 
 
 
 入口节点 
 来源 
 
 
 
 
 列车通勤 
 派生主体 (列车通勤)[的](人) 
 
 
 每天 
 派生主体 (每天)[的](列车通勤的人) 
 
 
 她 
 中心节点——属于 / 认为 / 赶上 / 派生（原本模式） 
 
 
 列车 
 发车 
 
 
 机械故障 / 信号失灵 / 雨天 
 三条 属于 unit 的主体 
 
 
 意外 
 发生 
 
 
 
 仅论元节点：人、列车通勤的人、每天列车通勤的人、早会、原本模式、通勤者原本模式（即"她的原本模式"渲染名）、迟到、慌乱、修饰行值（每天、准时、轻松、有备、大多数早晨、一点）。 
 例 6 — 整篇文章（4 段）：摘要驱动 + 跨段桥接 
 原文（GAN-based domain adaptation 论文摘要）： 
 
 使用带有精心注释的图像数据集来训练现代机器学习算法，对于许多任务来说都是非常昂贵的。一个很有吸引力的替代方案是渲染合成数据，其中 ground-truth 注释会自动生成。不幸的是，纯粹在渲染图像上进行训练的模型通常不能推广到真实图像。为了解决这个缺点，此前有研究引入无监督的领域自适应算法，尝试在两个域之间映射表示，或者学习提取不变的特征。在这项工作中，我们提出了一种新的方法，以无监督的方式学习实现从一个域到另一个域在像素空间上的转换。我们基于生成对抗网络（GAN）的模型能够适应源域映像，就像从目标域中绘制的一样。我们的方法不仅产生了合理的样本，而且在某些无监督的域适应场景中也远远胜过最先进的技术。最后，我们展示了适应过程生成了在训练过程中没有见过的物体类别。 
 
 摘要（剥叙述外壳） 
 把"我们提出 / 我们展示 / 不幸的是 / 很有吸引力"等评价词与元话语丢掉、重复合并，剩下的事实骨架： 
 
 问题 ：训练现代 ML 算法需要精心注释的图像数据集，标注成本高。 
 替代方案的缺陷 ：渲染合成数据虽自动生成注释，但纯渲染图像训练的模型在真实图像上泛化差。 
 已有解 ：无监督领域自适应算法——通过映射两域表示或提取不变特征实现。 
 本工作 ：基于 GAN 的模型，在像素空间做源域 → 目标域无监督转换；属于 UDA 新成员，超越 SOTA，并能生成训练时未见的物体类别。 
 
 四块 = 4 段抽取块。每块对应一条 spine。 
 视觉拓扑 
 一张整图。先列派生 / 同义簇（建立所有渲染名），再画主断言；每条画出来的边都对应一条主 unit。 
 派生 / 同义：
 (现代) ── [的] ── (机器学习算法) (现代机器学习算法) ── [的] ── (训练)
 (精心注释) ── [的] ── (图像数据集) (精心注释图像数据集) ── [的] ── (替代方案)
 (渲染) ── [的] ── (合成数据) (渲染) ── [的] ── (图像)
 (在渲染图像上) ── [的] ── (训练) (在渲染图像上训练) ── [的] ── (模型)
 (无监督) ── [的] ── (领域自适应算法) (基于 GAN) ── [的] ── (模型)
 (GAN) ── [同义] ── (生成对抗网络)

(现代机器学习算法训练) ── [需要] ── (精心注释图像数据集) ── [具有] ── (高成本)
 │
 │ [的]
 ▼
 (精心注释图像数据集的替代方案)
 ▲
 │ [属于]
 │
 (渲染合成数据) ── [具有] ── (自动生成的 ground-truth 注释)

(在渲染图像上训练的模型) ── [需要] ── (泛化到真实图像的能力) ◀── 标 u_e
 ▲
 │ [目的是] (嵌套：连到 u_e 的 [需要]，跳过节点)
 │
 (映射两域表示, 提取不变特征) ◀── [通过] ── (无监督领域自适应算法)
 ▲ ▲
 │ [属于] │ [属于]
 │ │
 (基于 GAN 的模型) ── [优于] ── (最先进技术)
 ★ spine └── [范围] ── (某些无监督域适应场景)
 │
 ├── [实现] ── (源域到目标域的像素空间无监督转换) ★
 │
 └── [具有] ── (生成训练未见类别能力)
 
 整篇 spine 落在 (基于 GAN 的模型) ── [实现] ── (源域到目标域的像素空间无监督转换) ——本工作的 headline 断言。共 12 主 unit + 4 修饰行 + 11 派生 / 同义。 
 证据修饰行未画在图上，规则统一：段 3 (无监督领域自适应算法) 系列 ()[证据](此前研究) ；段 4 (基于 GAN 的模型) 系列 ()[证据](本工作) 。 
 跨段桥接 
 5 条 unit 把 4 段缝起来： 
 
 u2.1 (渲染合成数据)[属于](精心注释图像数据集的替代方案) — 段 2 ↔ 段 1，靠派生节点 (精心注释图像数据集)[的](替代方案) 链回。 
 u3.1 (无监督领域自适应算法)[目的是](s2.u2) — 段 3 → 段 2，UDA 的目的就是解决段 2 的 u_e。 
 u4.1 (基于 GAN 的模型)[属于](无监督领域自适应算法) — 段 4 → 段 3。 
 u4.5 (最先进技术)[属于](无监督领域自适应算法) — 段 4 → 段 3。 
 
 沿 u4.1 / u4.5 的 [属于] 闭包，u3.1 的 [目的是 u_e] 自动继承到 (基于 GAN 的模型) 与 (最先进技术)——无须再画显式 [目的是 u_e] 边。 
 抽取决策注记 
 
 元话语降级 ："我们提出 / 我们展示 / 此前有研究" 全按原则 I 降到 ()[证据] （"本工作" / "此前研究"）。 
 摘要分句 = 段 spine ：4 段对应 4 条 spine；整篇 spine 落在 u4.2。 
 跨段引用用 sN.uM ：u3.1 引用段 2 的 u_e；u_a / u_b 局部 ID 不能跨段，跨段必须升格为持久 ID。 
 派生节点搭概念坐标系 ：(精心注释图像数据集) / (渲染合成数据) / (基于 GAN 的模型) 都是派生节点，让跨段引用能落到具体标识符。 
 
 摘要丢失什么 
 
 
 
 原文表达 
 丢失的认知内容 
 严格抽取应补 
 
 
 
 
 "通常不能泛化" 
 强度（"通常" ≠ "一定"） 
 ()[量化](大多数) 或 ()[置信度] 
 
 
 "远远胜过" 
 比较程度 
 ()[程度](远远) 
 
 
 "合理的样本" 
 一项独立的能力声明 
 单独 unit (基于 GAN 的模型)[具有](合理样本生成能力) 
 
 
 
 下游若依赖这些细节（研究综述强度对比、模型能力清单），从摘要回原文补全。摘要驱动的目标是知识图谱的"长期可推理"，不是完整还原原文。 
 摘要驱动 vs 句对句抽取 
 
 
 
 维度 
 句对句 
 摘要驱动 
 
 
 
 
 段数 
 7 
 4 
 
 
 主 unit 数 
 16 
 11 
 
 
 修饰行 
 多（量化 / 程度 / 置信度 / 方式） 
 仅必要的 [范围] / [证据] 
 
 
 丢弃 
 几乎不丢，全保留为修饰行 
 评价词 / 频率 / 程度 / 重复事实丢 
 
 
 适用 
 需要追溯到原文具体表述 
 进入领域知识库，做长期推理 
 
 
 
 摘要驱动收益：段边界天然对齐 narrative center；派生 node 收敛（句对句版的 "合理样本生成能力" / "适应过程" 等子节点直接合并到 [实现]转换 与 [具有](生成未见类别能力) ）；跨段桥接显式（摘要的因果链 → [目的是] / [属于] 自然落到段间）。 
 
 七、trade-off 
 
 
 图的稀疏 vs 稠密 ：单句输入产出小图（5–15 节点）、入口节点的 ┄┄ 尾巴大多是占位；整篇文章产出大图、跨段缝合后入口节点之间连接稠密、尾巴语义实化。规模差异天然，不是错误。 
 
 
 谓词不共享 [P] ：同义反复的谓词会让图上出现多个相同标签的 [P] 实例。优势是边类型清晰、不会因共享谓词节点引起拓扑歧义；查询时再沿 同义 + 的 闭包归并。 
 
 
 修饰行 [P] 视觉密度 ：unit 修饰行多时一条 [P] 上会挂 4–6 个子 [P] ——可选折叠为单行标签 (范围: X, 工具: Y, 证据: Z) ，但折叠版只用于显示，不进图遍历。 
 
 
 派生 node 的双重身份 ： (M)[的](B) 既贡献 (M) （入口），又让 MB 渲染名指向 (M) 实例。查图时基础 node B 上不会展开 M 的具体断言（参照 §三谓词分类， 的 不传递）。 
 
 
 不渲染语言层信息 ：焦点 / 主题前置、口吻、句末语气词、被动主动不入图。原则上图与抽取 unit 集等价，不多不少。 
 
 
 段边界由抽取者决定 ：原文的自然段往往不等于抽取段。把哪些句子合一段（共享 () 指代和局部 ID）是抽取者的工程判断——段太大局部 ID 容易冲突，段太小同句的修饰行被迫升格为重复主 unit。 
 
 
 主线选定 vs 多焦点段 ：主 unit 标记要求抽取者主观判断"本段最核心是哪条断言"。叙事性强的段（人物 / 因果 / 论证）容易选定；纯枚举段（条目列表 / 平行陈述）可能没有自然中心，主 unit 标 null ，所有 unit 平行。例 5 是叙事段，主线 = (她)[认为](u_c) 这条命题态度，立得住；svo_demo 句 4–6 是论文架构介绍的平行枚举，难单选主 unit，可标 null 。 
 
 
 主线视觉边标签 vs unit 谓词 ：主线视觉用自然连接词（ 平时 / 清楚 / 造成 ）让人读着顺，unit 文本写 family 谓词（ 属于 / 认为 / 导致 ）让查询走 family 闭包。映射不强制一对一——抽取者用判断力让两边都自然，关键是 unit 文本的 ground truth 仍可机器消费。