Skip to main content

认知图:2.图构建方法

文本到认知图:图构建方法

把一段自然语言(句、段、整篇)压成一张可遍历的文档定位:规范态(spec)。

依赖:认知图:以谓词作为概念——unit 图。数据模型、节点 / 谓词分类、抽取四原则。本文档只定义"文本 → 图"的构建流程与渲染契约,不重复定义抽取规则本身。


§1 总览

1.1 输入与输出

输入:自然语言文本(一句、一段、或一整篇)。

输出:

  • 输入:自然语言文本——一句、一段、或一整篇。unit 集合(主输出,ground truth);

  • 输出:一张图—图拓扑—节点(主体节点 / 论元 / 谓词)+ 边 + 入口标记,整体表达输入承载的持久事实。

依赖unit 数据模型与四原则定义在 认知图:以谓词作为概念。本文档只定义"文本 → 图"的构建过程与渲染契约,不重复抽取原则本身。集合派生。


一、输出形式

图的 ground truth 是 unit 文本——已有抽取约定的序列化形式:

{主体}[谓词]{论元}, {论元}, ...
()[修饰谓词]{值}                 # 值的可查询性视情况标 {}/()

派生 M[的]{B}(M 可为 {M} 或 (M),见认知图 §二.2)、同义 {A}[同义]{B}、嵌套局部 ID(u_a / u_b / ...)等同认知图 §二「数据模型」。

图示绘制只画可查询节点 {X}(不可查询修饰 (X) 通过修饰行表达,不出现在节点位置);[P] 表示谓词、──▶ / └──▶ 等表示有向边——与 unit 文本的标记一致。机器消费一律以 unit 文本为准,图示只是辅助阅读。文本为准;图示仅辅助阅读。


1.2

二、记号约定

范围

下文示例和讨论用以下记号表达本文档定义:文本 → unit 图:集 + 图拓扑的构建流程、图的不变量、unit 文本与拓扑摘要的序列化格式。

不重复定义:unit 形态、谓词分类、抽取四原则——见依赖文档。

1.3 流程概览

步骤 章节 产物 句法解析与语言层预处理 §2.1 小句序列 复句拆分 §2.2 待抽取小句 抽取 unit 集 §2.3 主 unit + 修饰行 + 派生 / 同义声明 节点收集与角色判定 §2.4 nodes 集合、S*(入口节点集) 主线选定 §2.5 每段一条 spine unit(或 null) 图拓扑装配 §2.6 星形子图 + 跨段缝合 多段输入处理 §2.7 段边界对齐 narrative center

1.4 记号约定

记号 含义
{X} 可查询节点。同一 node 全图唯一一个同一节点全图唯一一个 {X} 实例
(X) 不可查询修饰(仅出现在修饰行值或派生 M 位置,不作为图节点画出不画为图节点)
[P] 谓词。每条 unit 引入独立的 [P] 实例(同名谓词不共享节点)
──▶ 有向边:主体 ──[P]──▶ 论元;修饰行 ──[P]──▶ 值。
── 无向边(仅 [同义] 例外保留无向 ──使用) ┄┄ 节点的外发尾巴:标记该节点的入口节点外发尾巴:标记 subject_mentions 在全图层面非空、向本输入之外延伸在全图层面非空 u_a / u_b / … 段内局部 unit ID sN.uM 跨段引用的持久 unit ID(段 N 内的 u_M) S* 入口节点集(subject 字段曾出现过的节点集合)

入口节点 / 仅论元节点的区分不在记号本身体现,而由仅论元节点的区分不在记号本身体现——由 §三 步骤 2.4 的 S* 集合刻画——需要展示时在节点旁加注(如集合刻画。需要展示时在节点旁加注 {X}*)或在表格中单列说明。{X} 形态相同,是为了让图示和 unit 文本完全同形。或在表格中单列。


三、§2 构建流程

输入文本 → 输出 unit 集合 + 图拓扑。共五步,前三步沿用 认知图:以谓词作为概念 §五 抽取流程,后两步是本文档新增。

步骤 2.1 — 句法解析与语言层预处理

参照原按依赖文档 §五.6 步骤 1–2:识别小句 / 动词 / 论元 / 修饰 / 辖域;指代还原;特殊句式标准化(把字句、被字句、兼语、连动、是 / 有字句、比较句);特殊句式标准化;句类识别。

多句 / 多段输入:跨句指代和零指代在这一步统一还原。代词不能还原时降级为占位 node多段输入:跨句指代与零指代在这一步统一还原。代词不能还原时降级为占位节点 ?_1 / ?_2,并打 ()[置信度](low)

步骤 2.2 — 复句拆分

按因果 / 转折 / 时序 / 目的 / 条件 / 让步切分小句。保留连接关系,待嵌套层装回(原则依赖文档 §5.III)。

步骤 2.3 — 抽取 unit 集

逐小句产出 unit:

  • 选谓词(归 family 基础成员);

  • 定主体(≥1 个具体 node)个具体节点)

  • 补修饰行;

  • 同时满足同时满足依赖文档 §5 四原则——事实优先 / 最具体标识符 / 嵌套修饰 / 自洽四原则。

派生 node派生节点 M[的]{B} 在使用前先声明,渲染名 {MB} 入图。同义命名 {A}[同义]{B} 在两个标识符首次共现时声明。

派生 / 同义 不是默认操作——不是默认操作,按以下规则触发:

  • 派生:在两种情况下使用—派生触发条件—(a)满足任一: (a) 现有标识符在当前图里有歧义、需要收窄(例:复杂不完美的环境需要收窄; (b) 任意环境);(b)当前事实的重点就是描述当前事实的重点是描述 / 分类一个实体分类一个实体——名词短语作主句论元("设想 X" / "讨论 X" / "考虑 X")时,X 内部的修饰子句应当用派生节点层级表达,让 [属于] 把实例绑到类。

  • 同义:两个独立来源的标识符首次共现(例:论文-IAA ↔ 《深度强化学习的想象增强智能体》想象增强智能体架构 ↔ 想象增强智能体)。用同义给派生 node 起别名—同义触发条件:两个独立来源的标识符首次共现。不用同义给派生节点起别名——那是 alias 不是 synonym,没有信息增益。无信息增益。

两种判别启发判别启发:

    • 重点是描述 vs 事件:去掉量词 "事件:去掉量词"一位 / 一个 / 一种",看剩下的是不是个动词主导的完整句。是 → 事件型,主谓宾 + 修饰行;不是(剩下的是名词短语)→ 描述型,派生层级 + [属于]

    • 避免重复编码

      避免重复编码:写完一条派生 / 同义后,看是否同一事实在派生名、谓词、修饰行多处重复出现。是 → 简化掉冗余的层(要么删派生留事件,要么删事件留派生)。

    反例 AA——描述错抽成事件:

    原文:一位每天乘坐列车通勤的人(名词短语)
    
    描述错抽成事件:原文 "一位每天乘坐列车通勤的人"(名词短语)写成 错:{通勤者}[通勤]() + ()[工具]{列车} + ()[频率](每天)——把描述抽成动作,丢失"她是什么人"的分类语义。正解:的分类语义)
    
    正:(列车通勤)[的]{人} +
        (每天)[的]{列车通勤的人}
        + {通勤者}[属于]{每天列车通勤的人}
    

    反例 B B— 派生 + 同义 + 事件四处重复:同句写成事件四处重复:

    错:(列车通勤)[的]{人} +
        {列车通勤的人}[同义]{列车通勤者}    +# 同义被滥用作 alias
        {列车通勤者}[通勤]()
        + ()[工具]{列车}——同义被滥用作
        alias,"列车通勤"编码四次)
    编码四次。

    段(抽取块)的边界的边界:决定 () 指代的范围、决定局部指代范围与局部 ID u_a / u_b 的有效域。有效域。一般以原文自然段或一两句一组划段;段终止后 () 不再有指代,必须重起一条主 unit;跨段引用必须用持久 unit ID。这套规则照搬认知图ID §二.3–4,不在本文档重复。sN.uM

    步骤 2.4 — 节点收集与角色判定(全局)节点收集与角色判定

    遍历输入产出的所有遍历输入产出的所有 unit 集合 U(跨句、跨段统一收集,不分段重置):

    nodes := ⋃ unit ∈ U {主体, 谓词, 论元, 所有修饰行的值}
    # 数学集合表示,与 unit 语法 {}/() 无关
    S*    := ⋃ unit ∈ U {主体}
    # 含派生 / 同义 / 修饰行所属主 unit 的主体
    preds := { (unit, 谓词位置) }
    # 元组集合;以位置为单位,不去重
    

    每个 node 的角色:节点角色:

    • n ∈ S*入口节点入口节点(subject_mentions 非空,可作为反向索引入口)

    • 否则 → 仅论元节点仅论元节点(只在 context_mentions 中出现)

    • 谓词位置一律渲染为 [P]——同一谓词出现两次就是两个同一谓词出现两次是两个 [P] 实例(边的关系类型挂在边上,不共享节点)

    派生派生节点的基础节点 node 的基础 node BB(出现在 M[的]{B} 的论元位):在本输入里若 B 没单独作过主体,仍然是仅论元节点;这条派生声明本身让仍是仅论元节点;派生声明本身让 M 进 S*(M 是该 unit 的主体——若 M 标即使标 (M) 描述性派生,则虽不可独立查询但仍登记进仍登记进 S*)。

    步骤 2.5 — 主线选定

    在本段产出的在每段产出的 unit 集中标记一条 unit 为核心集中选一条为核心——它是这一段的该段的 narrative center。通常是:常见选择:

    • 命题态度 wrap([认为] / [认知] / [清楚]主张] / [主张] / [怀疑])整段事实的那条;

    • 或因果链顶层(因果链顶层(最末端的 [导致] / [造成] unit);

    • 或一段就立人物立人物 / 立场景的描述句,主 unit 是 [属于] / [是] 的分类断言。

    其余 unit 自动是分支自动为分支——它们仍然是独立仍是独立 unit、有完整结构有完整结构与查询语义,仅叙事地位上从属于主 / 反向索引 / 查询语义,只是叙事地位上从属于主 unitunit。

    主线选定没有结构后果主线选定无结构后果——它不改变图遍历语义,不改变图遍历语义,也不影响 unit 文本的 ground truth。它的作用是:作用仅三处:

    1. 视觉布局视觉布局——核心 unit 横向居中排在图的主轴上,分支从主轴节点向下/横向居中排在图的主轴,分支从主轴节点向下 / 向上引出;
    2. 段查询段查询——问"这段在讲什么"直接读核心 unit,不必遍历全部 unit 综合;unit;
    3. 叙事中心化:让一段的核心断言和支撑细节在层级上有明确区分。叙事中心化——核心断言和支撑细节在层级上有明确区分。

    主线视觉边标签视觉边标签 vs unit 文本谓词:视觉图上可用自然连接词(平时 / 清楚 / 造成),文本谓词:视觉图上可用自然连接词,便于人读;unit 文本里始终写文本里始终写 family 基础成员属于 / 认为 / 导致),基础成员,便于查询。映射例:

    视觉自然词 unit 文本 family 谓词
    平时 / 通常 / 是 属于 /
    清楚 / 知道 / 认为 认为 / 认知 / 知道
    造成 / 引发 / 让 导致 / 造成
    提出 / 介绍 (元话语,原则 I 降级,不上主线)

    空段允许无主 unitunit:纯派生 / 同义声明段(如开头铺设词典)可能没有自然中心;这种段标记主可能无自然中心,标 unitspinenull 即可。

    步骤 2.6 — 图拓扑装配

    每条 unit {S}[P]{A_1}, ..., {A_n} 装配为一个星形子图:

    {S} ── [P] ─▶ {A_1}
               ─▶ {A_2}
               ...
               ─▶ {A_n}
    

    修饰行 ()[mod-P]{v} 挂在主 unit 的 [P] 上:

    {S} ── [P] ─▶ {A}
               └── [mod-P] ─▶ {v}      # 若值为值为 (v) 不可查询修饰,显示为标签不画节点不可查询修饰时显示为标签,不画节点
    

    嵌套 —— 当 嵌套:A_i 是局部为局部 ID(u_a / u_b / ...):u_b)时,把内层 unit 的 [P] 直接接到外层 [P] 的论元位,跳过中间节点。读图者沿外层 [P] 走到内层 [P],再展开内层 unit。

    外层:{S}[目的是]{u_a}, {u_b}
    渲染:{S} ── [目的是] ─▶ [u_a 的谓词] ─▶ ...
                        └── [u_b 的谓词] ─▶ ...
    

    派生簇 —— M[的]{B} 是一条普通作为普通 unit:

    unit
    {M} ── [的] ─▶ {B}                  # M 为 {M} 时
    {M} ── [的] ─▶ {B}                  # M 为 (M) 描述性派生时,M 仅以标签形式出现
    

    派生 node 的渲染名渲染。派生节点的渲染名 {MB} 在后续 unit 里被引用时,复用里被引用时复用 {M}M 的位置——不复制 M 节点,整张图里 M 始终一个实例。

    同义簇 —— {A}[同义]{B} 同样作为 unit 渲染。渲染;查询时 ≡ 索引由 同义 谓词派生(依赖文档 §六.7.2)图上是显式的 [同义] 节点和两端的 {X}

    跨段连接 —— 当输入跨多个段时,节点(依靠全局唯一性,跨段连接:节点的全局唯一性(§四)天然把不同段产出的星形子图缝合在一起:3.1)天然把不同段产出的星形子图缝合到一起。第一段把 X 作主体 {X},第二段又用 X 作论元 {X}两段对应的子图共用同一个 {X} 同时出现在两段对应的子图里——它们共用同一个实例。实例。

    外发尾巴 —— 外发尾巴:给每个入口节点画一条 ┄┄ 尾巴,端点空悬,表示该 {X} 在全图层面有 subject_mentions 项可达本输入之外。如果该入口节点的所有若入口节点的所有 unit 都在本输入内被产出,尾巴只是占位;图被并入更大图后尾巴连到外部 unit。

    整篇2.7 / 多段输入 — 先摘要再分段多段输入处理

    输入超过一段时,直接句对句抽取段边界容易和原文物理段对不齐、跨段桥接也靠不住。先摘要再分段更稳:直接句对句抽取容易段边界与原文物理段错位、跨段桥接不稳。先摘要再分段:

    1. 摘要剥叙述外壳摘要剥叙述外壳——评价词、频率词、"我们提出 / 我们展示" 类元话语丢掉,留事实骨架。
    2. 摘要每个分句 = 一段抽取块一段抽取块——分句天然是该段的 spine 候选,段边界对齐 narrative center。
    3. 段间桥接由谓词承接段间桥接由谓词承接——摘要叙述"问题 → 替代 → 已有解 → 本工作"的因果链时,[目的是] / [属于] / [导致] 自然落到段间。
    4. 跨段引用用持久 IDID——格式 sN.uM(段 N 内的 u_M 升格);格式;段终止后 () 不再指代。

    摘要丢什么要心里有数摘要丢失的内容:强度("通常")、程度("远远")、分立能力声明("合理样本")会被压平。下游若依赖这些细节,回原文补 ()[量化] / ()[程度] 修饰行或独立 unit。

    不同文体的丢弃比差异显著不同文体的丢弃比(实测):

      文体 丢弃比 主要丢什么 论文 / 综述 ~30%:事实密度高,抒情少;丢的主要是元话语("我们提出 /元话语 我们展示")和评价副词。+ 科普评价副词 / 访谈 ~50%:修辞 / 反问 / 感叹密度高("我不是在写诗"、"切切");引述句要保留事实内核但拆掉戏剧化包装。 评论 / 观点 ~35% 评价副词 + "我感觉 / 希望 / 请大家指教" 等元话语丢弃,但作者主观断言保留元话语;作者主观断言保留为 ()[模态](希望) + ()[置信度](low)——评论文体下 [置信度](low) 是段标配,区别于综述默认信任作者断言。 科普 / 访谈 ~50% 修辞 / 反问 / 感叹;引述句保留事实内核 文学 / 散文 70%+:大部分语句承载的是情感 大部分情感 / 意象而非可入图事实,按摘要驱动只剩骨架。意象语句,仅剩骨架

      抽取者按文体调激进度——论文场景默认完整保留事实层,科普场景大胆丢抒情但保留专家定义性陈述(这些往往是文章的真正内核),抽取者按文体调整激进度:论文场景默认完整保留事实层;评论场景默认全段挂 [证据](作者主张) + [置信度](low)

      完整工作示例见 §六 例 5 — 一篇 9 行论文摘要 → 4 段 11 主 unit + 11 派生 / 同义 + 4 修饰行;同输入按句对句抽取会膨胀到 7 段 16 主 unit。


      四、§3 不变量

      构建出的图必须满足:构建出的图必须同时满足:

      1. 节点全局唯一性:同一 node 在整段输入产出的图里全局唯一一个节点全局唯一性——同一节点在整段输入产出的图里全局唯一一个 {X} 实例。一个 node 在多句多段多条一个节点在多句多段多条 unit 里出现,对应同一个实例。
      2. 谓词独立性谓词独立性——同一谓词在不同 unit 里是不同 [P] 实例。"两次说'具有'"对应两个 [具有] 实例。
      3. 角色单调性角色单调性——节点一旦进入 S*(成为入口节点),永远是入口节点,不会因后续 unit 倒退为仅论元节点。
      4. 修饰行从属性修饰行从属性——修饰行的 [P] 必须挂在主 unit 的 [P] 上,不能直接连主体 {X}——否则就该升格为独立主;否则应升格为独立主 unit。
      5. 嵌套不绕路嵌套不绕路——内层 unit 在外层 unit 的论元位上以"另一个 [P]"形态出现,禁止用占位 {X} 中转。
      6. 段内局部 ID 不外泄不外泄—— u_a / u_b 等局部仅在所属段内的论元位上出现;跨段引用必须替换为 ID 只在所属段内的论元位上出现;跨段引用必须替换成持久 unit IDsN.uM 或具体节点名。
      7. 每段恰有一条主 unitunit(或显式标 null);其余 unit 全是分支。主线没有结构后果,仅影响视觉布局和段查询入口。
      8. 可视图严格 {主体} ──[谓词]──▶ {论元}:图示画出来的每条边都必须对应一条主 形态——图示画出的每条边都对应一条主 unit,箭头两端都是显式 {节点}(不可查询修饰 (X) 不画为节点,仅以标签形式附着在边上)。出现 [谓词] X 这种浮空标签浮空标签缺一个显式节点或一条派生 M[的]{B} 声明,缺一个显式节点或一条派生声明,必须补全。
      9. 可查询性合规:每个节点位置按认知图可查询性合规——节点位置标记按依赖文档 §二.2.2 {} 或 (...);派生 node判定;派生节点 M[的]B 三条约束:(1) 渲染名 {MB} 必须通过三约束按依赖文档 §2.2 测试;(2) M 不能是纯 hedge(违反 → 改走修饰行);(3) M 与 B 各按 standalone 是否承载信息标记,四种组合均合法。4.3。

      违反任一条 → 抽取或装配出错。


      五、可序列化形式§4 序列化形式

      实际输出有两层。主输出 —

      4.1 unit 文本

       是 文本(主输出,ground truth;分段、主truth)

      unit 用注释标记:集合 + 分段 + 主线标注,序列化为纯文本:

      # 段 1   spine: u1
      {想象增强}[的]{智能体}
      {想象增强智能体}[需要提升]{学习效率}         # u1
      ()[范围]{真实世界环境}
      ()[程度](复杂), (不完美)
      ()[工具]{想象力}
      ()[证据]{DeepMind}
      
      # 段 2   spine: u3
      ...
      

      4.2 拓扑摘要(派生输出,可选)

      派生输出可由 unit 拓扑摘要(可选,给可视化渲染器消费,由主输出自动派生、不持久化):文本自动派生,供可视化渲染器消费,不持久化:

      graph:
        nodes:
          - id: 想象增强智能体
            entry: true                     # 入口节点(S* 成员)
            out_count: 4
          - id: 学习效率
            entry: false                    # 仅论元节点
        ...
        preds:
          - id: u1
            subject: 想象增强智能体
            predicate: 需要提升
            args: [学习效率]
            modifiers:
              范围: 复杂不完美环境
              工具: 想象力
              证据: DeepMind
        ...
        segments:
          - id: seg-1
            spine: u1                       # 段的主 unit;null 表示无主线
            branches: [u2, u3, u4, ...]     # 该段其余 unit
          ...u4]
      

      两者必须一致——若不一致,以一致性:两层必须一致;不一致时以 unit 文本为准。


      六、§5 示例

      例 1 — 单句简单陈述

      原文:深蓝击败卡斯帕罗夫。

      unit 文本:

      {深蓝}[击败]{卡斯帕罗夫}
      

      节点角色:S* = {深蓝} → 入口节点;卡斯帕罗夫 → 仅论元节点;[击败] 是谓词实例。

      拓扑示意:拓扑:

                  ┄┄┄┄ {外发}
                    ╲
                    {深蓝} ── [击败] ─▶ {卡斯帕罗夫}
      

      例 2 — 单句派生 + 修饰行

      原文:DeepMind 通过赋予智能体想象力,提升了其在复杂不完美环境中的学习效率。

      unit 文本:

      (复杂不完美)[的](环境)            # M 是描述性派生 (是描述性派生(b 类评价的复合不可单独查询)类评价的复合不可单独查询)
      {想象增强}[的]{智能体}            # M 是 Cc 类技术属性 — 标 {}
      
      {想象增强智能体}[具有]{想象力}
      ()[证据]{DeepMind}
      
      {想象增强智能体}[需要提升]{学习效率}
      ()[范围]{复杂不完美环境}          # 派生节点渲染名,作为整体 queryable
      ()[工具]{想象力}
      ()[证据]{DeepMind}
      

      节点角色:S* = {复杂不完美 (复杂不完美(派生 M)M)、想象增强、想象增强智能体}

      node节点 角色 理由
      复杂不完美 入口 (描述性)入口(描述性) 派生声明 (复杂不完美)[的]{环境} 的主体;标 (M) 表"描述性派生"
      想象增强 入口 派生声明 {想象增强}[的]{智能体} 的主体
      想象增强智能体 入口 多次作主体(具有 / 需要提升)
      环境 仅论元 仅作论元
      智能体 仅论元 仅作论元
      想象力 仅论元 论元 + 修饰行值
      学习效率 仅论元 仅作论元
      复杂不完美环境 仅论元 修饰行值(派生 node 渲染名)派生节点渲染名)
      DeepMind 仅论元 修饰行值(证据)

      拓扑示意:拓扑:

      (复杂不完美) ── [的] ─▶ (环境)
      
      {想象增强} ── [的] ─▶ {智能体}
      
                                  ┄┄┄ {外发}
                                  ╲
         {想象增强智能体} ── [具有] ─▶ {想象力}
                        │       └── [证据] ─▶ {DeepMind}
                        │
                        └── [需要提升] ─▶ {学习效率}
                                    ├── [范围] ─▶ {复杂不完美环境}
                                    ├── [工具] ─▶ {想象力}
                                    └── [证据] ─▶ {DeepMind}
      

      匹配手绘图的形态:入口节点(带 ┄┄ 尾巴)是反向索引登记点,手臂上是 [P] ─▶ {X},多条 unit 通过共享 {X} 相连。(复杂不完美) () 标记是因为"是因为"复杂"+"不完美"是描述复合,单独不可查询,但派生整体单独不可查询;派生整体 {复杂不完美环境} 是可查询节点。

      例 3 — 单句嵌套(意图链)

      原文:DeepMind 提出 X,旨在应对真实世界的复杂性,从而提升深度强化学习的性能。

      unit 文本(原则依赖文档 §5.I 元话语降级 + 原则 §5.III 意图链嵌套):

      {真实世界}[具有]{复杂性}               # u_a
      {深度强化学习}[需要提升]{性能}         # u_b
      
      {X}[目的是]{u_a}, {u_b}
      ()[证据]{DeepMind}
      

      节点角色:S* = {真实世界, 深度强化学习, X} → 入口节点;其余 → 仅论元节点。

      拓扑示意(拓扑(嵌套用 [P] 直连 [P]):

      {真实世界} ── [具有] ─▶ {复杂性}
                             ↑
                             │
      {X} ── [目的是] ────────┤
             │               ↓
             │     {深度强化学习} ── [需要提升] ─▶ {性能}
             └── [证据] ─▶ {DeepMind}
      

      注意 [目的是] 的两个论元位接的是另外两个的两个论元位接的是另外两个 [P](u_a / u_b 的谓词),不是中间套 {X}——这是嵌套的几何特征。

      例 4 — 跨句的全局节点缝合

      原文(两句一段):DeepMind 提出了想象增强智能体。该智能体在复杂环境中具有更高的学习效率。

      unit 文本(两段抽取块,每段独立局部 ID 域;节点跨段共享):

      {想象增强}[的]{智能体}
      {想象增强智能体}[同义]{DeepMind 提出的想象增强智能体}
      ()[证据]{DeepMind}
      
      {想象增强智能体}[具有]{学习效率}
      ()[范围](环境)
      ()[程度](复杂)            # b 类评价 — 修饰行
      ()[程度](更高)            # c 类无锚比较 — 修饰行
      

      节点角色(全局收集):

      • 入口节点:想象增强、想象增强智能体

      • 仅论元节点:智能体、DeepMind、环境、学习效率

      想象增强智能体 在第一段是主体(同义声明)、第二段还是主体(具有),两段共用同一实例——它是同一个 {想象增强智能体},把两段的子图缝合到一起。把两段子图缝合到一起。这是 §四 不变量 3.1 在跨句场景的直接体现。

      注意第二段没有派生第二段没有派生 {复杂}[的]{环境}——按依赖文档 §二.22.3 b评价 类「主观评价」、c/ 类「无锚比较」,无锚比较类,"复杂"和"更高"都应化为修饰行应化为修饰行 ()[程度](X),避免引入不可查询节点 (复杂) / (更高) 进派生。

      例 5 — 整篇文章(4 段):摘要驱动 + 跨段桥接

      原文(GAN-based domain adaptation 论文摘要):

      使用带有精心注释的图像数据集来训练现代机器学习算法,对于许多任务来说都是非常昂贵的。一个很有吸引力的替代方案是渲染合成数据,其中 ground-truth 注释会自动生成。不幸的是,纯粹在渲染图像上进行训练的模型通常不能推广到真实图像。为了解决这个缺点,此前有研究引入无监督的领域自适应算法,尝试在两个域之间映射表示,或者学习提取不变的特征。在这项工作中,我们提出了一种新的方法,以无监督的方式学习实现从一个域到另一个域在像素空间上的转换。我们基于生成对抗网络(GAN)的模型能够适应源域映像,就像从目标域中绘制的一样。我们的方法不仅产生了合理的样本,而且在某些无监督的域适应场景中也远远胜过最先进的技术。最后,我们展示了适应过程生成了在训练过程中没有见过的物体类别。

      摘要(剥叙述外壳)

      把"我们提出 / 我们展示 / 不幸的是 / 很有吸引力"等评价词与元话语丢掉、重复合并,剩下的事实骨架:重复合并:

      1. 问题问题——训练现代 ML 算法需要精心注释的图像数据集,标注成本高。
      2. 替代方案的缺陷替代方案的缺陷——渲染合成数据虽自动生成注释,但纯渲染图像训练的模型在真实图像上泛化差。
      3. 已有解:无监督领域自适应算法—已有解—无监督领域自适应算法,通过映射两域表示或提取不变特征实现。
      4. 本工作本工作——基于 GAN 的模型,在像素空间做源域 → 目标域无监督转换;属于 UDA 新成员,超越 SOTA,并能生成训练时未见的物体类别。

      四块 = 4 段抽取块。每块对应一条 spine。

      视觉拓扑

      一张整图。先列派生 / 同义簇(建立所有渲染名),再画主断言;每条画出来的边都对应一条主 unit。

      派生 / 同义:
         {现代} ── [的] ─▶ {机器学习算法}              {现代机器学习算法} ── [的] ─▶ (训练)
         {精心注释} ── [的] ─▶ {图像数据集}            {精心注释图像数据集} ── [的] ─▶ (替代方案)
         {渲染} ── [的] ─▶ {合成数据}                  {渲染} ── [的] ─▶ (图像)
         {在渲染图像上} ── [的] ─▶ (训练)              {在渲染图像上训练} ── [的] ─▶ (模型)
         {无监督} ── [的] ─▶ {领域自适应算法}          {基于 GAN} ── [的] ─▶ (模型)
         {GAN} ── [同义] ── {生成对抗网络}
      
      
      {现代机器学习算法训练} ── [需要] ─▶ {精心注释图像数据集} ── [具有] ─▶ {高成本}
                                                    │
                                                    │ [的]
                                                    ▼
                                        {精心注释图像数据集的替代方案}
                                                    ▲
                                                    │ [属于]
                                                    │
                                        {渲染合成数据} ── [具有] ─▶ {自动生成的 ground-truth 注释}
      
      
      {在渲染图像上训练的模型} ── [需要] ─▶ {泛化到真实图像的能力}
                                                    ▲
                                                    │ [目的是]
                                                    │
            {映射两域表示}, {提取不变特征} ◀── [通过] ── {无监督领域自适应算法}
                                                             ▲              ▲
                                                             │ [属于]       │ [属于]
                                                             │              │
                                                      {基于 GAN 的模型} ── [优于] ─▶ {最先进技术}
                                                         ★ spine                  └── [范围] ─▶ {某些无监督域适应场景}
                                                             │
                                                             ├── [实现] ─▶ {源域到目标域的像素空间无监督转换}  ★
                                                             │
                                                             └── [具有] ─▶ {生成训练未见类别能力}
      

      整篇 spine 落在 {基于 GAN 的模型} ── [实现] ─▶ {源域到目标域的像素空间无监督转换}——本工作的 headline 断言。共 12 主 unit + 4 修饰行 + 11 派生 / 同义。

      证据修饰行未画在图上,规则统一:证据修饰行按统一规则:3 (无监督领域自适应算法) 3(无监督领域自适应算法)系列 ()[证据]{此前研究};段 4 (4(基于 GAN 的模型) 的模型)系列 ()[证据]{本工作}

      注意可查询性标记:可查询性标记:{现代} / {无监督} / {渲染} / {GAN} 都通过都通过依赖文档 §2.2 测试(独立承载信息);测试;(精心注释) / (在渲染图像上) / (基于 GAN) 是描述性派生 M(standalone 不承载,但派生整体 {...} 通过测试);(模型) / (训练) / (图像) 是通用角色名词(standalone 不承载,但通过修饰特化后渲染整体承载)通过修饰特化后渲染整体承载)

      关系展开(每个箭头一行)

      # 派生 / 同义(11)
      {现代}[的]{机器学习算法}
      {现代机器学习算法}[的](训练)
      {精心注释}[的]{图像数据集}
      {精心注释图像数据集}[的](替代方案)
      {渲染}[的]{合成数据}
      {渲染}[的](图像)
      {在渲染图像上}[的](训练)
      {在渲染图像上训练}[的](模型)
      {无监督}[的]{领域自适应算法}
      {基于 GAN}[的](模型)
      {GAN}[同义]{生成对抗网络}
      
      # 段 1 — 问题
      u1.1  {现代机器学习算法训练}[需要]{精心注释图像数据集}
      u1.2  {精心注释图像数据集}[具有]{高成本}
      
      # 段 2 — 替代方案缺陷
      u2.1  {渲染合成数据}[属于]{精心注释图像数据集的替代方案}
      u2.2  {在渲染图像上训练的模型}[需要]{泛化到真实图像的能力}
      u2.3  {渲染合成数据}[具有]{自动生成的 ground-truth 注释}
      
      # 段 3 — 已有解
      u3.1  {无监督领域自适应算法}[目的是]{s2.u2}              # 嵌套到 u2.2 的 [需要]
      u3.2  {无监督领域自适应算法}[通过]{映射两域表示}, {提取不变特征}
      
      # 段 4 — 本工作
      u4.1  {基于 GAN 的模型}[属于]{无监督领域自适应算法}
      u4.2  {基于 GAN 的模型}[实现]{源域到目标域的像素空间无监督转换}   ★ headline spine
      u4.3  {基于 GAN 的模型}[优于]{最先进技术}
              ()[范围]{某些无监督域适应场景}                    # 修饰 u4.3 的 [优于]
      u4.4  {基于 GAN 的模型}[具有]{生成训练未见类别能力}
      u4.5  {最先进技术}[属于]{无监督领域自适应算法}
      

      24 行 = 11 派生 / 同义 + 12 主 unit + 1 修饰行。[证据] 系列修饰行(段 3 → 此前研究;段 4 → 本工作)按统一规则补在每条所属系列修饰行按统一规则补在所属 unit 上,未单列。

      跨段桥接

      5 条 unit 把 4 段缝起来:

      • u2.1 {渲染合成数据}[属于]{精心注释图像数据集的替代方案} — 段 2 ↔ 段 1,靠派生节点 {精心注释图像数据集}[的]{替代方案} 链回。靠派生节点链回;

      • u3.1 {无监督领域自适应算法}[目的是]{s2.u2} — 段 3 → 段 2,UDA 的目的就是解决段 2 的 s2.u2。2;

      • u4.1 {基于 GAN 的模型}[属于]{无监督领域自适应算法} — 段 4 → 段 3。3;

      • u4.5 {最先进技术}[属于]{无监督领域自适应算法} — 段 4 → 段 3。

      沿 u4.1 / u4.5 的 [属于] 闭包,u3.1 的 [目的是 s2.u2] 自动继承到 {基于 GAN 的模型} 与 {最先进技术}——无须再画显式 [目的是 s2.u2] 边。

      抽取决策注记

        元话语降级:"我们提出 / 我们展示 / 此前有研究" 全按原则 I 降到 ()[证据]{本工作} / {此前研究})。 摘要分句 = 段 spine:4 段对应 4 条 spine;整篇 spine 落在 u4.2。 跨段引用用 sN.uM:u3.1 引用段 2 的 s2.u2;u_a / u_b 这类段内局部 ID 不能跨段,必须升格为持久 ID。 派生节点搭概念坐标系{精心注释图像数据集} / {渲染合成数据} / {基于 GAN 的模型} 都是派生节点(M 部分含 (精心注释) / (在渲染图像上) / (基于 GAN) 描述性派生),让跨段引用能落到具体标识符。

        摘要丢失什么摘要丢失的内容

        原文表达 丢失的认知内容 严格抽取应补
        "通常不能泛化" 强度("通常" ≠ "一定") ()[量化](大多数)()[置信度]
        "远远胜过" 比较程度 ()[程度](远远)
        "合理的样本" 一项独立的能力声明 单独 unit (基于 GAN 的模型)[具有](合理样本生成能力)

        下游若依赖这些细节(研究综述强度对比、模型能力清单),从摘要回原文补全。摘要驱动的目标是知识图谱的"长期可推理",摘要驱动的目标是知识图谱的长期可推理,不是完整还原原文。

        摘要驱动 vs 句对句抽取

        维度 句对句 摘要驱动
        段数 7 4
        主 unit 数 16 11
        修饰行 多(量化 / 程度 / 置信度 / 方式) 仅必要的 [范围] / [证据]
        丢弃 几乎不丢,全保留为修饰行 评价词 / 频率 / 程度 / 重复事实丢
        适用 需要追溯到原文具体表述 进入领域知识库,做长期推理

        摘要驱动收益:段边界天然对齐 narrative center;派生 node 收敛(句对句版的 "合理样本生成能力" / "适应过程" 等子节点直接合并到 [实现]转换 与 [具有]{生成未见类别能力});跨段桥接显式(摘要的因果链 → [目的是] / [属于] 自然落到段间)。


        七、trade-§6 Trade-off

          取舍 内容

          图的稀疏 vs 稠密 单句输入产出小图(5–15 节点)、入口节点的 ┄┄ 尾巴大多是占位;整篇文章产出大图、跨段缝合后入口节点之间连接稠密、尾巴语义实化。规模差异天然,不是错误。尾巴语义实化

          谓词不共享 [P] 同义反复的谓词会让图上出现多个相同标签的 [P] 实例。优势是边类型清晰、不会因共享谓词节点引起拓扑歧义;优势:边类型清晰、不会因共享谓词节点引起拓扑歧义。查询时再沿 同义 + 闭包归并。闭包归并

          修饰行修饰行视觉密度 [P] 视觉密度

          unit 修饰行多时一条 [P] 上会挂 4–6 个子 [P]——可选折叠为单行标签 (范围: X, 工具: Y, 证据: Z),但折叠版只用于显示,不进图遍历。不进图遍历

          派生派生节点的双重身份 node 的双重身份

          M[的]{B} 既贡献 M(入口;M 为 {M} 时是独立可查询节点,时独立可查询,(M) 时是描述性派生 M)时描述性派生),又让 {MB} 渲染名指向 M 实例。查图时基础 node查图时基础节点 B 上不会展开 M 的具体断言(参照的具体断言 §三谓词分类, 不传递)。 不渲染语言层信息

          不渲染语言层信息

          焦点 / 主题前置、口吻、句末语气词、被动主动不入图。原则上图与抽取原则上图与 unit 集等价,不多不少。不多不少

          段边界由抽取者决定 原文的自然段往往不等于抽取段。把哪些句子合一段(共享 () 指代和局部 ID)是抽取者的工程判断——段太大局部 ID 容易冲突,段太小同句的修饰行被迫升格为重复主 unit。unit

          主线选定 vs 多焦点段 主 unit 标记要求抽取者主观判断"本段最核心是哪条断言"。叙事性强的段(人物 / 因果 / 论证)容易选定;叙事性强的段易选定;纯枚举段(条目列表 / 平行陈述)可能没有自然中心,可能无自然中心,主 unit 标 null,所有 unit 平行。例平行 5

          是有 headline 断言的论文摘要,整篇 spine = {基于 GAN 的模型}[实现]{源域到目标域的像素空间无监督转换},立得住;svo_demo 句 4–6 是论文架构介绍的平行枚举,难单选主 unit,可标 null

          主线视觉边标签视觉边标签 vs unit 谓词:主线视觉用自然连接词(平时 / 清楚 / 造成)让人读着顺,视觉用自然连接词让人读着顺,unit 文本写 family 谓词(属于 / 认为 / 导致)让查询走谓词让查询走 family 闭包。映射不强制一对一——抽取者用判断力让两边都自然,关键是 unit 文本的 ground truth 仍可机器消费。仍可机器消费