认知图：2.图构建方法

文本到认知图：图构建方法 
 文档定位：规范态（spec）。 
 依赖： 认知图：以谓词作为概念 ——unit 数据模型、节点 / 谓词分类、抽取四原则。本文档只定义"文本 → 图"的构建流程与渲染契约，不重复定义抽取规则本身。 
 
 §1 总览 
 1.1 输入与输出 
 输入：自然语言文本（一句、一段、或一整篇）。 
 输出： 
 
 
 unit 集合（主输出，ground truth）； 
 
 
 图拓扑——节点 + 边 + 入口标记，由 unit 集合派生。 
 
 
 机器消费一律以 unit 文本为准；图示仅辅助阅读。 
 1.2 范围 
 本文档定义：文本 → unit 集 + 图拓扑的构建流程、图的不变量、unit 文本与拓扑摘要的序列化格式。 
 不重复定义：unit 形态、谓词分类、抽取四原则——见依赖文档。 
 1.3 流程概览 
 
 
 
 步骤 
 章节 
 产物 
 
 
 
 
 句法解析与语言层预处理 
 §2.1 
 小句序列 
 
 
 复句拆分 
 §2.2 
 待抽取小句 
 
 
 抽取 unit 集 
 §2.3 
 主 unit + 修饰行 + 派生 / 同义声明 
 
 
 节点收集与角色判定 
 §2.4 
 nodes 集合、 S* （入口节点集） 
 
 
 主线选定 
 §2.5 
 每段一条 spine unit（或 null） 
 
 
 图拓扑装配 
 §2.6 
 星形子图 + 跨段缝合 
 
 
 多段输入处理 
 §2.7 
 段边界对齐 narrative center 
 
 
 
 1.4 记号约定 
 
 
 
 记号 
 含义 
 
 
 
 
 {X} 
 可查询节点。同一节点全图唯一一个 {X} 实例 
 
 
 (X) 
 不可查询修饰（仅出现在修饰行值或派生 M 位置，不画为图节点） 
 
 
 [P] 
 谓词。每条 unit 引入独立的 [P] 实例（同名谓词不共享节点） 
 
 
 ──▶ 
 有向边：主体 ── [P] ──▶ 论元；修饰行 ── [P] ──▶ 值 
 
 
 ── 
 无向边（仅 [同义] 使用） 
 
 
 ┄┄ 
 入口节点外发尾巴：标记 subject_mentions 在全图层面非空 
 
 
 u_a / u_b / … 
 段内局部 unit ID 
 
 
 sN.uM 
 跨段引用的持久 unit ID（段 N 内的 u_M） 
 
 
 S* 
 入口节点集（subject 字段曾出现过的节点集合） 
 
 
 
 入口节点 / 仅论元节点的区分不在记号本身体现——由 §2.4 的 S* 集合刻画。需要展示时在节点旁加注 {X}* 或在表格中单列。 
 
 §2 构建流程 
 2.1 句法解析与语言层预处理 
 按依赖文档 §6 步骤 1–2：识别小句 / 动词 / 论元 / 修饰 / 辖域；指代还原；特殊句式标准化；句类识别。 
 多句 / 多段输入：跨句指代与零指代在这一步统一还原。代词不能还原时降级为占位节点 ?_1 / ?_2 ，并打 ()[置信度](low) 。 
 2.2 复句拆分 
 按因果 / 转折 / 时序 / 目的 / 条件 / 让步切分小句。保留连接关系，待嵌套层装回（依赖文档 §5.III）。 
 2.3 抽取 unit 集 
 逐小句产出 unit： 
 
 
 选谓词（归 family 基础成员）； 
 
 
 定主体（≥1 个具体节点）； 
 
 
 补修饰行； 
 
 
 同时满足依赖文档 §5 四原则。 
 
 
 派生节点 M[的]{B} 在使用前先声明，渲染名 {MB} 入图。同义命名 {A}[同义]{B} 在两个标识符首次共现时声明。 
 派生 / 同义 不是默认操作，按以下规则触发： 
 
 
 派生触发条件——满足任一：
(a) 现有标识符在当前图里有歧义、需要收窄；
(b) 当前事实的重点是描述 / 分类一个实体——名词短语作主句论元（"设想 X" / "讨论 X"）时，X 内部的修饰子句应当用派生节点层级表达，让 [属于] 把实例绑到类。 
 
 
 同义触发条件：两个独立来源的标识符首次共现。不用同义给派生节点起别名——那是 alias 不是 synonym，无信息增益。 
 
 
 判别启发： 
 
 
 重点是描述 vs 事件：去掉量词"一位 / 一个 / 一种"，看剩下的是不是个动词主导的完整句。是 → 事件型，主谓宾 + 修饰行；不是（剩下的是名词短语）→ 描述型，派生层级 + [属于] 。 
 
 
 避免重复编码：写完一条派生 / 同义后，看是否同一事实在派生名、谓词、修饰行多处重复出现。是 → 简化掉冗余的层（要么删派生留事件，要么删事件留派生）。 
 
 
 反例 A——描述错抽成事件： 
 原文：一位每天乘坐列车通勤的人（名词短语）

错：{通勤者}[通勤]() + ()[工具]{列车} + ()[频率](每天)
 （把描述抽成动作，丢失"她是什么人"的分类语义）

正：(列车通勤)[的]{人}
 (每天)[的]{列车通勤的人}
 {通勤者}[属于]{每天列车通勤的人}
 
 反例 B——派生 + 同义 + 事件四处重复： 
 错：(列车通勤)[的]{人}
 {列车通勤的人}[同义]{列车通勤者} # 同义被滥用作 alias
 {列车通勤者}[通勤]()
 ()[工具]{列车}
 （"列车通勤"编码四次）
 
 段（抽取块）的边界：决定 () 指代范围与局部 ID 有效域。一般以原文自然段或一两句一组划段；段终止后 () 不再有指代，必须重起一条主 unit；跨段引用必须用持久 unit ID sN.uM 。 
 2.4 节点收集与角色判定 
 遍历输入产出的所有 unit 集合 U（跨句、跨段统一收集，不分段重置）： 
 nodes := ⋃ unit ∈ U {主体, 谓词, 论元, 所有修饰行的值}
S* := ⋃ unit ∈ U {主体}
preds := { (unit, 谓词位置) }
 
 节点角色： 
 
 
 n ∈ S* → 入口节点（ subject_mentions 非空，可作为反向索引入口）； 
 
 
 否则 → 仅论元节点（只在 context_mentions 中出现）； 
 
 
 谓词位置一律渲染为 [P] ——同一谓词出现两次是两个 [P] 实例（边的关系类型挂在边上，不共享节点）。 
 
 
 派生节点的基础节点 B（出现在 M[的]{B} 的论元位）：若 B 没单独作过主体，仍是仅论元节点；派生声明本身让 M 进 S*（M 即使标 (M) 描述性派生，仍登记进 S*）。 
 2.5 主线选定 
 在每段产出的 unit 集中选一条为核心——该段的 narrative center。常见选择： 
 
 
 命题态度 wrap（ [认为] / [认知] / [主张] / [怀疑] ）整段事实的那条； 
 
 
 因果链顶层（最末端的 [导致] / [造成] unit）； 
 
 
 立人物 / 立场景的描述句，主 unit 是 [属于] / [是] 的分类断言。 
 
 
 其余 unit 自动为分支——仍是独立 unit、有完整结构与查询语义，仅叙事地位上从属于主 unit。 
 主线选定无结构后果——不改变图遍历语义，也不影响 unit 文本的 ground truth。作用仅三处： 
 
 视觉布局——核心 unit 横向居中排在图的主轴，分支从主轴节点向下 / 向上引出； 
 段查询——问"这段在讲什么"直接读核心 unit； 
 叙事中心化——核心断言和支撑细节在层级上有明确区分。 
 
 视觉边标签 vs unit 文本谓词：视觉图上可用自然连接词，便于人读；unit 文本里始终写 family 基础成员，便于查询。 
 
 
 
 视觉自然词 
 unit 文本 family 谓词 
 
 
 
 
 平时 / 通常 / 是 
 属于 / 是 
 
 
 清楚 / 知道 / 认为 
 认为 / 认知 / 知道 
 
 
 造成 / 引发 / 让 
 导致 / 造成 
 
 
 提出 / 介绍 
 （元话语，原则 I 降级，不上主线） 
 
 
 
 空段允许无主 unit：纯派生 / 同义声明段（如开头铺设词典）可能无自然中心，标 spine 为 null 。 
 2.6 图拓扑装配 
 每条 unit {S}[P]{A_1}, ..., {A_n} 装配为一个星形子图： 
 {S} ── [P] ─▶ {A_1}
 ─▶ {A_2}
 ...
 ─▶ {A_n}
 
 修饰行 ()[mod-P]{v} 挂在主 unit 的 [P] 上： 
 {S} ── [P] ─▶ {A}
 └── [mod-P] ─▶ {v} # 值为 (v) 不可查询修饰时显示为标签,不画节点
 
 嵌套：A_i 为局部 ID（u_a / u_b）时，把内层 unit 的 [P] 直接接到外层 [P] 的论元位，跳过中间节点。 
 外层：{S}[目的是]{u_a}, {u_b}
渲染：{S} ── [目的是] ─▶ [u_a 的谓词] ─▶ ...
 └── [u_b 的谓词] ─▶ ...
 
 派生簇 M[的]{B} 作为普通 unit 渲染。派生节点的渲染名 {MB} 在后续 unit 里被引用时复用 M 的位置——不复制 M 节点，整张图里 M 始终一个实例。 
 同义簇 {A}[同义]{B} 同样作为 unit 渲染；查询时 ≡ 索引由 同义 谓词派生（依赖文档 §7.2）。图上是显式的 [同义] 节点和两端的 {X} 。 
 跨段连接：节点的全局唯一性（§3.1）天然把不同段产出的星形子图缝合到一起。第一段把 X 作主体 {X} ，第二段又用 X 作论元 {X} ，两段对应的子图共用同一个 {X} 实例。 
 外发尾巴：给每个入口节点画一条 ┄┄ 尾巴，端点空悬，表示该 {X} 在全图层面有 subject_mentions 项可达本输入之外。若入口节点的所有 unit 都在本输入内被产出，尾巴只是占位；图被并入更大图后尾巴连到外部 unit。 
 2.7 多段输入处理 
 输入超过一段时，直接句对句抽取容易段边界与原文物理段错位、跨段桥接不稳。先摘要再分段： 
 
 摘要剥叙述外壳——评价词、频率词、"我们提出 / 我们展示"类元话语丢掉，留事实骨架。 
 摘要每个分句 = 一段抽取块——分句天然是该段的 spine 候选，段边界对齐 narrative center。 
 段间桥接由谓词承接——摘要叙述"问题 → 替代 → 已有解 → 本工作"的因果链时， [目的是] / [属于] / [导致] 自然落到段间。 
 跨段引用用持久 ID—— sN.uM 格式；段终止后 () 不再指代。 
 
 摘要丢失的内容：强度（"通常"）、程度（"远远"）、分立能力声明（"合理样本"）会被压平。下游若依赖这些细节，回原文补 ()[量化] / ()[程度] 修饰行或独立 unit。 
 不同文体的丢弃比（实测）： 
 
 
 
 文体 
 丢弃比 
 主要丢什么 
 
 
 
 
 论文 / 综述 
 ~30% 
 元话语 + 评价副词 
 
 
 评论 / 观点 
 ~35% 
 评价副词 + 元话语；作者主观断言保留为 ()[模态](希望) + ()[置信度](low) 
 
 
 科普 / 访谈 
 ~50% 
 修辞 / 反问 / 感叹；引述句保留事实内核 
 
 
 文学 / 散文 
 70%+ 
 大部分情感 / 意象语句，仅剩骨架 
 
 
 
 抽取者按文体调整激进度：论文场景默认完整保留事实层；评论场景默认全段挂 [证据](作者主张) + [置信度](low) 。 
 
 §3 不变量 
 构建出的图必须同时满足： 
 
 节点全局唯一性——同一节点在整段输入产出的图里全局唯一一个 {X} 实例。一个节点在多句多段多条 unit 里出现，对应同一个实例。 
 谓词独立性——同一谓词在不同 unit 里是不同 [P] 实例。"两次说'具有'"对应两个 [具有] 实例。 
 角色单调性——节点一旦进入 S*（成为入口节点），永远是入口节点，不会因后续 unit 倒退为仅论元节点。 
 修饰行从属性——修饰行的 [P] 必须挂在主 unit 的 [P] 上，不能直接连主体 {X} ；否则应升格为独立主 unit。 
 嵌套不绕路——内层 unit 在外层 unit 的论元位上以"另一个 [P] "形态出现，禁止用占位 {X} 中转。 
 段内局部 ID 不外泄—— u_a / u_b 仅在所属段内的论元位上出现；跨段引用必须替换为 sN.uM 或具体节点名。 
 每段恰有一条主 unit（或显式标 null ）；其余 unit 全是分支。 
 可视图严格 {主体} ──[谓词]──▶ {论元} 形态——图示画出的每条边都对应一条主 unit，箭头两端都是显式 {节点} 。出现 [谓词] X 浮空标签 → 缺一个显式节点或一条派生声明，必须补全。 
 可查询性合规——节点位置标记按依赖文档 §2.2 判定；派生节点 M[的]B 三约束按依赖文档 §4.3。 
 
 违反任一条 → 抽取或装配出错。 
 
 §4 序列化形式 
 4.1 unit 文本（主输出，ground truth） 
 unit 集合 + 分段 + 主线标注，序列化为纯文本： 
 # 段 1 spine: u1
{想象增强}[的]{智能体}
{想象增强智能体}[需要提升]{学习效率} # u1
()[范围]{真实世界环境}
()[程度](复杂), (不完美)
()[工具]{想象力}
()[证据]{DeepMind}

# 段 2 spine: u3
...
 
 4.2 拓扑摘要（派生输出，可选） 
 可由 unit 文本自动派生，供可视化渲染器消费，不持久化： 
 graph:
 nodes:
 - id: 想象增强智能体
 entry: true # 入口节点（S* 成员）
 out_count: 4
 - id: 学习效率
 entry: false # 仅论元节点
 preds:
 - id: u1
 subject: 想象增强智能体
 predicate: 需要提升
 args: [学习效率]
 modifiers:
 范围: 复杂不完美环境
 工具: 想象力
 证据: DeepMind
 segments:
 - id: seg-1
 spine: u1 # 段的主 unit；null 表示无主线
 branches: [u2, u3, u4]
 
 一致性：两层必须一致；不一致时以 unit 文本为准。 
 
 §5 示例 
 例 1 — 单句简单陈述 
 原文：深蓝击败卡斯帕罗夫。 
 unit 文本： 
 {深蓝}[击败]{卡斯帕罗夫}
 
 节点角色：S* = {深蓝} → 入口节点；卡斯帕罗夫 → 仅论元节点； [击败] 是谓词实例。 
 拓扑： 
 ┄┄┄┄ {外发}
 ╲
 {深蓝} ── [击败] ─▶ {卡斯帕罗夫}
 
 例 2 — 单句派生 + 修饰行 
 原文：DeepMind 通过赋予智能体想象力，提升了其在复杂不完美环境中的学习效率。 
 unit 文本： 
 (复杂不完美)[的](环境) # M 是描述性派生（b 类评价的复合不可单独查询）
{想象增强}[的]{智能体} # M 是 c 类技术属性 — 标 {}

{想象增强智能体}[具有]{想象力}
()[证据]{DeepMind}

{想象增强智能体}[需要提升]{学习效率}
()[范围]{复杂不完美环境} # 派生节点渲染名,作为整体 queryable
()[工具]{想象力}
()[证据]{DeepMind}
 
 节点角色：S* = {复杂不完美（派生 M）、想象增强、想象增强智能体} 
 
 
 
 节点 
 角色 
 理由 
 
 
 
 
 复杂不完美 
 入口（描述性） 
 派生声明 (复杂不完美)[的]{环境} 的主体；标 (M) 表"描述性派生" 
 
 
 想象增强 
 入口 
 派生声明 {想象增强}[的]{智能体} 的主体 
 
 
 想象增强智能体 
 入口 
 多次作主体（具有 / 需要提升） 
 
 
 环境 
 仅论元 
 仅作论元 
 
 
 智能体 
 仅论元 
 仅作论元 
 
 
 想象力 
 仅论元 
 论元 + 修饰行值 
 
 
 学习效率 
 仅论元 
 仅作论元 
 
 
 复杂不完美环境 
 仅论元 
 修饰行值（派生节点渲染名） 
 
 
 DeepMind 
 仅论元 
 修饰行值（证据） 
 
 
 
 拓扑： 
 (复杂不完美) ── [的] ─▶ (环境)

{想象增强} ── [的] ─▶ {智能体}

 ┄┄┄ {外发}
 ╲
 {想象增强智能体} ── [具有] ─▶ {想象力}
 │ └── [证据] ─▶ {DeepMind}
 │
 └── [需要提升] ─▶ {学习效率}
 ├── [范围] ─▶ {复杂不完美环境}
 ├── [工具] ─▶ {想象力}
 └── [证据] ─▶ {DeepMind}
 
 (复杂不完美) 标 () 是因为"复杂"+"不完美"是描述复合，单独不可查询；派生整体 {复杂不完美环境} 是可查询节点。 
 例 3 — 单句嵌套（意图链） 
 原文：DeepMind 提出 X，旨在应对真实世界的复杂性，从而提升深度强化学习的性能。 
 unit 文本（依赖文档 §5.I 元话语降级 + §5.III 意图链嵌套）： 
 {真实世界}[具有]{复杂性} # u_a
{深度强化学习}[需要提升]{性能} # u_b

{X}[目的是]{u_a}, {u_b}
()[证据]{DeepMind}
 
 节点角色：S* = {真实世界, 深度强化学习, X} → 入口节点；其余 → 仅论元节点。 
 拓扑（嵌套用 [P] 直连 [P] ）： 
 {真实世界} ── [具有] ─▶ {复杂性}
 ↑
 │
{X} ── [目的是] ────────┤
 │ ↓
 │ {深度强化学习} ── [需要提升] ─▶ {性能}
 └── [证据] ─▶ {DeepMind}
 
 [目的是] 的两个论元位接的是另外两个 [P] （u_a / u_b 的谓词），不是中间套 {X} ——这是嵌套的几何特征。 
 例 4 — 跨句的全局节点缝合 
 原文（两句一段）：DeepMind 提出了想象增强智能体。该智能体在复杂环境中具有更高的学习效率。 
 unit 文本（两段抽取块，每段独立局部 ID 域；节点跨段共享）： 
 {想象增强}[的]{智能体}
{想象增强智能体}[同义]{DeepMind 提出的想象增强智能体}
()[证据]{DeepMind}
 
 {想象增强智能体}[具有]{学习效率}
()[范围](环境)
()[程度](复杂) # b 类评价 — 修饰行
()[程度](更高) # c 类无锚比较 — 修饰行
 
 节点角色（全局收集）： 
 
 
 入口节点：想象增强、想象增强智能体 
 
 
 仅论元节点：智能体、DeepMind、环境、学习效率 
 
 
 想象增强智能体 在第一段是主体（同义声明）、第二段还是主体（具有），两段共用同一实例——把两段子图缝合到一起。这是 §3.1 在跨句场景的直接体现。 
 第二段没有派生 {复杂}[的]{环境} ——按依赖文档 §2.3 评价 / 无锚比较类，"复杂"和"更高"应化为修饰行 ()[程度](X) ，避免引入不可查询节点 (复杂) / (更高) 进派生。 
 例 5 — 整篇文章（4 段）：摘要驱动 + 跨段桥接 
 原文（GAN-based domain adaptation 论文摘要）： 
 
 使用带有精心注释的图像数据集来训练现代机器学习算法，对于许多任务来说都是非常昂贵的。一个很有吸引力的替代方案是渲染合成数据，其中 ground-truth 注释会自动生成。不幸的是，纯粹在渲染图像上进行训练的模型通常不能推广到真实图像。为了解决这个缺点，此前有研究引入无监督的领域自适应算法，尝试在两个域之间映射表示，或者学习提取不变的特征。在这项工作中，我们提出了一种新的方法，以无监督的方式学习实现从一个域到另一个域在像素空间上的转换。我们基于生成对抗网络（GAN）的模型能够适应源域映像，就像从目标域中绘制的一样。我们的方法不仅产生了合理的样本，而且在某些无监督的域适应场景中也远远胜过最先进的技术。最后，我们展示了适应过程生成了在训练过程中没有见过的物体类别。 
 
 摘要（剥叙述外壳） 
 把"我们提出 / 我们展示 / 不幸的是 / 很有吸引力"等评价词与元话语丢掉、重复合并： 
 
 问题——训练现代 ML 算法需要精心注释的图像数据集，标注成本高。 
 替代方案的缺陷——渲染合成数据虽自动生成注释，但纯渲染图像训练的模型在真实图像上泛化差。 
 已有解——无监督领域自适应算法，通过映射两域表示或提取不变特征实现。 
 本工作——基于 GAN 的模型，在像素空间做源域 → 目标域无监督转换；属于 UDA 新成员，超越 SOTA，并能生成训练时未见的物体类别。 
 
 四块 = 4 段抽取块。每块对应一条 spine。 
 视觉拓扑 
 派生 / 同义：
 {现代} ── [的] ─▶ {机器学习算法} {现代机器学习算法} ── [的] ─▶ (训练)
 {精心注释} ── [的] ─▶ {图像数据集} {精心注释图像数据集} ── [的] ─▶ (替代方案)
 {渲染} ── [的] ─▶ {合成数据} {渲染} ── [的] ─▶ (图像)
 {在渲染图像上} ── [的] ─▶ (训练) {在渲染图像上训练} ── [的] ─▶ (模型)
 {无监督} ── [的] ─▶ {领域自适应算法} {基于 GAN} ── [的] ─▶ (模型)
 {GAN} ── [同义] ── {生成对抗网络}

{现代机器学习算法训练} ── [需要] ─▶ {精心注释图像数据集} ── [具有] ─▶ {高成本}
 │
 │ [的]
 ▼
 {精心注释图像数据集的替代方案}
 ▲
 │ [属于]
 │
 {渲染合成数据} ── [具有] ─▶ {自动生成的 ground-truth 注释}

{在渲染图像上训练的模型} ── [需要] ─▶ {泛化到真实图像的能力}
 ▲
 │ [目的是]
 │
 {映射两域表示}, {提取不变特征} ◀── [通过] ── {无监督领域自适应算法}
 ▲ ▲
 │ [属于] │ [属于]
 │ │
 {基于 GAN 的模型} ── [优于] ─▶ {最先进技术}
 ★ spine └── [范围] ─▶ {某些无监督域适应场景}
 │
 ├── [实现] ─▶ {源域到目标域的像素空间无监督转换} ★
 │
 └── [具有] ─▶ {生成训练未见类别能力}
 
 整篇 spine 落在 {基于 GAN 的模型} ──[实现]─▶ {源域到目标域的像素空间无监督转换} ——本工作的 headline 断言。共 12 主 unit + 4 修饰行 + 11 派生 / 同义。 
 证据修饰行按统一规则：段 3（无监督领域自适应算法）系列 ()[证据]{此前研究} ；段 4（基于 GAN 的模型）系列 ()[证据]{本工作} 。 
 可查询性标记： {现代} / {无监督} / {渲染} / {GAN} 都通过依赖文档 §2.2 测试； (精心注释) / (在渲染图像上) / (基于 GAN) 是描述性派生 M（standalone 不承载，但派生整体 {...} 通过测试）； (模型) / (训练) / (图像) 是通用角色名词（standalone 不承载，通过修饰特化后渲染整体承载）。 
 关系展开（每个箭头一行） 
 # 派生 / 同义（11）
{现代}[的]{机器学习算法}
{现代机器学习算法}[的](训练)
{精心注释}[的]{图像数据集}
{精心注释图像数据集}[的](替代方案)
{渲染}[的]{合成数据}
{渲染}[的](图像)
{在渲染图像上}[的](训练)
{在渲染图像上训练}[的](模型)
{无监督}[的]{领域自适应算法}
{基于 GAN}[的](模型)
{GAN}[同义]{生成对抗网络}

# 段 1 — 问题
u1.1 {现代机器学习算法训练}[需要]{精心注释图像数据集}
u1.2 {精心注释图像数据集}[具有]{高成本}

# 段 2 — 替代方案缺陷
u2.1 {渲染合成数据}[属于]{精心注释图像数据集的替代方案}
u2.2 {在渲染图像上训练的模型}[需要]{泛化到真实图像的能力}
u2.3 {渲染合成数据}[具有]{自动生成的 ground-truth 注释}

# 段 3 — 已有解
u3.1 {无监督领域自适应算法}[目的是]{s2.u2} # 嵌套到 u2.2 的 [需要]
u3.2 {无监督领域自适应算法}[通过]{映射两域表示}, {提取不变特征}

# 段 4 — 本工作
u4.1 {基于 GAN 的模型}[属于]{无监督领域自适应算法}
u4.2 {基于 GAN 的模型}[实现]{源域到目标域的像素空间无监督转换} ★ headline spine
u4.3 {基于 GAN 的模型}[优于]{最先进技术}
 ()[范围]{某些无监督域适应场景} # 修饰 u4.3 的 [优于]
u4.4 {基于 GAN 的模型}[具有]{生成训练未见类别能力}
u4.5 {最先进技术}[属于]{无监督领域自适应算法}
 
 24 行 = 11 派生 / 同义 + 12 主 unit + 1 修饰行。 [证据] 系列修饰行按统一规则补在所属 unit 上，未单列。 
 跨段桥接 
 5 条 unit 把 4 段缝起来： 
 
 
 u2.1 {渲染合成数据}[属于]{精心注释图像数据集的替代方案} — 段 2 ↔ 段 1，靠派生节点链回； 
 
 
 u3.1 {无监督领域自适应算法}[目的是]{s2.u2} — 段 3 → 段 2； 
 
 
 u4.1 {基于 GAN 的模型}[属于]{无监督领域自适应算法} — 段 4 → 段 3； 
 
 
 u4.5 {最先进技术}[属于]{无监督领域自适应算法} — 段 4 → 段 3。 
 
 
 沿 u4.1 / u4.5 的 [属于] 闭包，u3.1 的 [目的是 s2.u2] 自动继承到 {基于 GAN 的模型} 与 {最先进技术}——无须再画显式 [目的是 s2.u2] 边。 
 摘要丢失的内容 
 
 
 
 原文表达 
 丢失的认知内容 
 严格抽取应补 
 
 
 
 
 "通常不能泛化" 
 强度（"通常" ≠ "一定"） 
 ()[量化](大多数) 或 ()[置信度] 
 
 
 "远远胜过" 
 比较程度 
 ()[程度](远远) 
 
 
 "合理的样本" 
 一项独立的能力声明 
 单独 unit (基于 GAN 的模型)[具有](合理样本生成能力) 
 
 
 
 下游若依赖这些细节（研究综述强度对比、模型能力清单），从摘要回原文补全。摘要驱动的目标是知识图谱的长期可推理，不是完整还原原文。 
 摘要驱动 vs 句对句抽取 
 
 
 
 维度 
 句对句 
 摘要驱动 
 
 
 
 
 段数 
 7 
 4 
 
 
 主 unit 数 
 16 
 11 
 
 
 修饰行 
 多（量化 / 程度 / 置信度 / 方式） 
 仅必要的 [范围] / [证据] 
 
 
 丢弃 
 几乎不丢，全保留为修饰行 
 评价词 / 频率 / 程度 / 重复事实丢 
 
 
 适用 
 需要追溯到原文具体表述 
 进入领域知识库，做长期推理 
 
 
 
 
 §6 Trade-off 
 
 
 
 取舍 
 内容 
 
 
 
 
 图的稀疏 vs 稠密 
 单句输入产出小图（5–15 节点）、入口节点的 ┄┄ 尾巴大多是占位；整篇文章产出大图、跨段缝合后入口节点之间连接稠密、尾巴语义实化 
 
 
 谓词不共享 [P] 
 同义反复的谓词会让图上出现多个相同标签的 [P] 实例。优势：边类型清晰、不会因共享谓词节点引起拓扑歧义。查询时再沿 同义 + 的 闭包归并 
 
 
 修饰行视觉密度 
 unit 修饰行多时一条 [P] 上会挂 4–6 个子 [P] 。可选折叠为单行标签 (范围: X, 工具: Y, 证据: Z) ，但折叠版只用于显示，不进图遍历 
 
 
 派生节点的双重身份 
 M[的]{B} 既贡献 M（入口；M 为 {M} 时独立可查询，为 (M) 时描述性派生），又让 {MB} 渲染名指向 M 实例。查图时基础节点 B 上不会展开 M 的具体断言 
 
 
 不渲染语言层信息 
 焦点 / 主题前置、口吻、句末语气词、被动主动不入图。原则上图与 unit 集等价，不多不少 
 
 
 段边界由抽取者决定 
 原文的自然段往往不等于抽取段。把哪些句子合一段（共享 () 指代和局部 ID）是抽取者的工程判断——段太大局部 ID 容易冲突，段太小同句的修饰行被迫升格为重复主 unit 
 
 
 主线选定 vs 多焦点段 
 主 unit 标记要求抽取者主观判断"本段最核心是哪条断言"。叙事性强的段易选定；纯枚举段（条目列表 / 平行陈述）可能无自然中心，主 unit 标 null ，所有 unit 平行 
 
 
 视觉边标签 vs unit 谓词 
 视觉用自然连接词让人读着顺，unit 文本写 family 谓词让查询走 family 闭包。映射不强制一对一——抽取者用判断力让两边都自然，关键是 unit 文本的 ground truth 仍可机器消费