认知图：2.图构建方法

文本到认知图：图构建方法

文档定位：规范态（spec）。

依赖：认知图：以谓词作为概念——unit 数据模型、节点 / 谓词分类、抽取四原则。本文档只定义"文本 → 图"的构建流程与渲染契约，不重复定义抽取规则本身。

§1 总览

1.1 输入与输出

输入：自然语言文本（一句、一段、或一整篇）。

输出：

unit 集合（主输出，ground truth）；
图拓扑——节点 + 边 + 入口标记，由 unit 集合派生。

机器消费一律以 unit 文本为准；图示仅辅助阅读。

1.2 范围

本文档定义：文本 → unit 集 + 图拓扑的构建流程、图的不变量、unit 文本与拓扑摘要的序列化格式。

不重复定义：unit 形态、谓词分类、抽取四原则——见依赖文档。

1.3 流程概览

步骤	章节	产物
句法解析与语言层预处理	§2.1	小句序列
复句拆分	§2.2	待抽取小句
抽取 unit 集	§2.3	主 unit + 修饰行 + 派生 / 同义声明
节点收集与角色判定	§2.4	`nodes` 集合、`S*`（入口节点集）
主线选定	§2.5	每段一条 spine unit（或 null）
图拓扑装配	§2.6	星形子图 + 跨段缝合
多段输入处理	§2.7	段边界对齐 narrative center

1.4 记号约定

记号	含义
`{X}`	可查询节点。同一节点全图唯一一个 `{X}` 实例
`(X)`	不可查询修饰（仅出现在修饰行值或派生 M 位置，不画为图节点）
`[P]`	谓词。每条 unit 引入独立的 `[P]` 实例（同名谓词不共享节点）
──▶	有向边：主体 ──`[P]`──▶ 论元；修饰行 ──`[P]`──▶ 值
──	无向边（仅 `[同义]` 使用）
┄┄	入口节点外发尾巴：标记 `subject_mentions` 在全图层面非空
`u_a` / `u_b` / …	段内局部 unit ID
`sN.uM`	跨段引用的持久 unit ID（段 N 内的 u_M）
`S*`	入口节点集（subject 字段曾出现过的节点集合）

入口节点 / 仅论元节点的区分不在记号本身体现——由 §2.4 的 S* 集合刻画。需要展示时在节点旁加注 {X}* 或在表格中单列。

§2 构建流程

2.1 句法解析与语言层预处理

按依赖文档 §6 步骤 1–2：识别小句 / 动词 / 论元 / 修饰 / 辖域；指代还原；特殊句式标准化；句类识别。

多句 / 多段输入：跨句指代与零指代在这一步统一还原。代词不能还原时降级为占位节点 ?_1 / ?_2，并打 ()[置信度](low)。

2.2 复句拆分

按因果 / 转折 / 时序 / 目的 / 条件 / 让步切分小句。保留连接关系，待嵌套层装回（依赖文档 §5.III）。

2.3 抽取 unit 集

逐小句产出 unit：

选谓词（归 family 基础成员）；
定主体（≥1 个具体节点）；
补修饰行；
同时满足依赖文档 §5 四原则。

派生节点 M[的]{B} 在使用前先声明，渲染名 {MB} 入图。同义命名 {A}[同义]{B} 在两个标识符首次共现时声明。

派生 / 同义不是默认操作，按以下规则触发：

派生触发条件——满足任一： (a) 现有标识符在当前图里有歧义、需要收窄； (b) 当前事实的重点是描述 / 分类一个实体——名词短语作主句论元（"设想 X" / "讨论 X"）时，X 内部的修饰子句应当用派生节点层级表达，让 [属于] 把实例绑到类。
同义触发条件：两个独立来源的标识符首次共现。不用同义给派生节点起别名——那是 alias 不是 synonym，无信息增益。

判别启发：

重点是描述 vs 事件：去掉量词"一位 / 一个 / 一种"，看剩下的是不是个动词主导的完整句。是 → 事件型，主谓宾 + 修饰行；不是（剩下的是名词短语）→ 描述型，派生层级 + [属于]。
避免重复编码：写完一条派生 / 同义后，看是否同一事实在派生名、谓词、修饰行多处重复出现。是 → 简化掉冗余的层（要么删派生留事件，要么删事件留派生）。

反例 A——描述错抽成事件：

原文：一位每天乘坐列车通勤的人（名词短语）

错：{通勤者}[通勤]() + ()[工具]{列车} + ()[频率](每天)
    （把描述抽成动作，丢失"她是什么人"的分类语义）

正：(列车通勤)[的]{人}
    (每天)[的]{列车通勤的人}
    {通勤者}[属于]{每天列车通勤的人}

反例 B——派生 + 同义 + 事件四处重复：

错：(列车通勤)[的]{人}
    {列车通勤的人}[同义]{列车通勤者}    # 同义被滥用作 alias
    {列车通勤者}[通勤]()
    ()[工具]{列车}
    （"列车通勤"编码四次）

段（抽取块）的边界：决定 () 指代范围与局部 ID 有效域。一般以原文自然段或一两句一组划段；段终止后 () 不再有指代，必须重起一条主 unit；跨段引用必须用持久 unit ID sN.uM。

2.4 节点收集与角色判定

遍历输入产出的所有 unit 集合 U（跨句、跨段统一收集，不分段重置）：

nodes := ⋃ unit ∈ U {主体, 谓词, 论元, 所有修饰行的值}
S*    := ⋃ unit ∈ U {主体}
preds := { (unit, 谓词位置) }

节点角色：

n ∈ S* → 入口节点（subject_mentions 非空，可作为反向索引入口）；
否则 → 仅论元节点（只在 context_mentions 中出现）；
谓词位置一律渲染为 [P]——同一谓词出现两次是两个 [P] 实例（边的关系类型挂在边上，不共享节点）。

派生节点的基础节点 B（出现在 M[的]{B} 的论元位）：若 B 没单独作过主体，仍是仅论元节点；派生声明本身让 M 进 S*（M 即使标 (M) 描述性派生，仍登记进 S*）。

2.5 主线选定

在每段产出的 unit 集中选一条为核心——该段的 narrative center。常见选择：

命题态度 wrap（[认为] / [认知] / [主张] / [怀疑]）整段事实的那条；
因果链顶层（最末端的 [导致] / [造成] unit）；
立人物 / 立场景的描述句，主 unit 是 [属于] / [是] 的分类断言。

其余 unit 自动为分支——仍是独立 unit、有完整结构与查询语义，仅叙事地位上从属于主 unit。

主线选定无结构后果——不改变图遍历语义，也不影响 unit 文本的 ground truth。作用仅三处：

视觉布局——核心 unit 横向居中排在图的主轴，分支从主轴节点向下 / 向上引出；
段查询——问"这段在讲什么"直接读核心 unit；
叙事中心化——核心断言和支撑细节在层级上有明确区分。

视觉边标签 vs unit 文本谓词：视觉图上可用自然连接词，便于人读；unit 文本里始终写 family 基础成员，便于查询。

视觉自然词	unit 文本 family 谓词
平时 / 通常 / 是	`属于` / `是`
清楚 / 知道 / 认为	`认为` / `认知` / `知道`
造成 / 引发 / 让	`导致` / `造成`
提出 / 介绍	（元话语，原则 I 降级，不上主线）

空段允许无主 unit：纯派生 / 同义声明段（如开头铺设词典）可能无自然中心，标 spine 为 null。

2.6 图拓扑装配

每条 unit {S}[P]{A_1}, ..., {A_n} 装配为一个星形子图：

{S} ── [P] ─▶ {A_1}
           ─▶ {A_2}
           ...
           ─▶ {A_n}

修饰行 ()[mod-P]{v} 挂在主 unit 的 [P] 上：

{S} ── [P] ─▶ {A}
           └── [mod-P] ─▶ {v}      # 值为 (v) 不可查询修饰时显示为标签,不画节点

嵌套：A_i 为局部 ID（u_a / u_b）时，把内层 unit 的 [P] 直接接到外层 [P] 的论元位，跳过中间节点。

外层：{S}[目的是]{u_a}, {u_b}
渲染：{S} ── [目的是] ─▶ [u_a 的谓词] ─▶ ...
                    └── [u_b 的谓词] ─▶ ...

派生簇 M[的]{B} 作为普通 unit 渲染。派生节点的渲染名 {MB} 在后续 unit 里被引用时复用 M 的位置——不复制 M 节点，整张图里 M 始终一个实例。

同义簇 {A}[同义]{B} 同样作为 unit 渲染；查询时 ≡ 索引由 同义 谓词派生（依赖文档 §7.2）。图上是显式的 [同义] 节点和两端的 {X}。

跨段连接：节点的全局唯一性（§3.1）天然把不同段产出的星形子图缝合到一起。第一段把 X 作主体 {X}，第二段又用 X 作论元 {X}，两段对应的子图共用同一个 {X} 实例。

外发尾巴：给每个入口节点画一条 ┄┄ 尾巴，端点空悬，表示该 {X} 在全图层面有 subject_mentions 项可达本输入之外。若入口节点的所有 unit 都在本输入内被产出，尾巴只是占位；图被并入更大图后尾巴连到外部 unit。

2.7 多段输入处理

输入超过一段时，直接句对句抽取容易段边界与原文物理段错位、跨段桥接不稳。先摘要再分段：

摘要剥叙述外壳——评价词、频率词、"我们提出 / 我们展示"类元话语丢掉，留事实骨架。
摘要每个分句 = 一段抽取块——分句天然是该段的 spine 候选，段边界对齐 narrative center。
段间桥接由谓词承接——摘要叙述"问题 → 替代 → 已有解 → 本工作"的因果链时，[目的是] / [属于] / [导致] 自然落到段间。
跨段引用用持久 ID—— sN.uM 格式；段终止后 () 不再指代。

摘要丢失的内容：强度（"通常"）、程度（"远远"）、分立能力声明（"合理样本"）会被压平。下游若依赖这些细节，回原文补 ()[量化] / ()[程度] 修饰行或独立 unit。

不同文体的丢弃比（实测）：

文体	丢弃比	主要丢什么
论文 / 综述	~30%	元话语 + 评价副词
评论 / 观点	~35%	评价副词 + 元话语；作者主观断言保留为 `()[模态](希望)` + `()[置信度](low)`
科普 / 访谈	~50%	修辞 / 反问 / 感叹；引述句保留事实内核
文学 / 散文	70%+	大部分情感 / 意象语句，仅剩骨架

抽取者按文体调整激进度：论文场景默认完整保留事实层；评论场景默认全段挂 [证据](作者主张) + [置信度](low)。

§3 不变量

构建出的图必须同时满足：

节点全局唯一性——同一节点在整段输入产出的图里全局唯一一个 {X} 实例。一个节点在多句多段多条 unit 里出现，对应同一个实例。
谓词独立性——同一谓词在不同 unit 里是不同 [P] 实例。"两次说'具有'"对应两个 [具有] 实例。
角色单调性——节点一旦进入 S*（成为入口节点），永远是入口节点，不会因后续 unit 倒退为仅论元节点。
修饰行从属性——修饰行的 [P] 必须挂在主 unit 的 [P] 上，不能直接连主体 {X}；否则应升格为独立主 unit。
嵌套不绕路——内层 unit 在外层 unit 的论元位上以"另一个 [P]"形态出现，禁止用占位 {X} 中转。
段内局部 ID 不外泄—— u_a / u_b 仅在所属段内的论元位上出现；跨段引用必须替换为 sN.uM 或具体节点名。
每段恰有一条主 unit（或显式标 null）；其余 unit 全是分支。
可视图严格 {主体} ──[谓词]──▶ {论元} 形态——图示画出的每条边都对应一条主 unit，箭头两端都是显式 {节点}。出现 [谓词] X 浮空标签 → 缺一个显式节点或一条派生声明，必须补全。
可查询性合规——节点位置标记按依赖文档 §2.2 判定；派生节点 M[的]B 三约束按依赖文档 §4.3。

违反任一条 → 抽取或装配出错。

§4 序列化形式

4.1 unit 文本（主输出，ground truth）

unit 集合 + 分段 + 主线标注，序列化为纯文本：

# 段 1   spine: u1
{想象增强}[的]{智能体}
{想象增强智能体}[需要提升]{学习效率}         # u1
()[范围]{真实世界环境}
()[程度](复杂), (不完美)
()[工具]{想象力}
()[证据]{DeepMind}

# 段 2   spine: u3
...

4.2 拓扑摘要（派生输出，可选）

可由 unit 文本自动派生，供可视化渲染器消费，不持久化：

graph:
  nodes:
    - id: 想象增强智能体
      entry: true                     # 入口节点（S* 成员）
      out_count: 4
    - id: 学习效率
      entry: false                    # 仅论元节点
  preds:
    - id: u1
      subject: 想象增强智能体
      predicate: 需要提升
      args: [学习效率]
      modifiers:
        范围: 复杂不完美环境
        工具: 想象力
        证据: DeepMind
  segments:
    - id: seg-1
      spine: u1                       # 段的主 unit；null 表示无主线
      branches: [u2, u3, u4]

一致性：两层必须一致；不一致时以 unit 文本为准。

§5 示例

例 1 — 单句简单陈述

原文：深蓝击败卡斯帕罗夫。

unit 文本：

{深蓝}[击败]{卡斯帕罗夫}

节点角色：S* = {深蓝} → 入口节点；卡斯帕罗夫 → 仅论元节点；[击败] 是谓词实例。

拓扑：

            ┄┄┄┄ {外发}
              ╲
              {深蓝} ── [击败] ─▶ {卡斯帕罗夫}

例 2 — 单句派生 + 修饰行

原文：DeepMind 通过赋予智能体想象力，提升了其在复杂不完美环境中的学习效率。

unit 文本：

(复杂不完美)[的](环境)            # M 是描述性派生（b 类评价的复合不可单独查询）
{想象增强}[的]{智能体}            # M 是 c 类技术属性 — 标 {}

{想象增强智能体}[具有]{想象力}
()[证据]{DeepMind}

{想象增强智能体}[需要提升]{学习效率}
()[范围]{复杂不完美环境}          # 派生节点渲染名,作为整体 queryable
()[工具]{想象力}
()[证据]{DeepMind}

节点角色：S* = {复杂不完美（派生 M）、想象增强、想象增强智能体}

节点	角色	理由
复杂不完美	入口（描述性）	派生声明 `(复杂不完美)[的]{环境}` 的主体；标 `(M)` 表"描述性派生"
想象增强	入口	派生声明 `{想象增强}[的]{智能体}` 的主体
想象增强智能体	入口	多次作主体（具有 / 需要提升）
环境	仅论元	仅作论元
智能体	仅论元	仅作论元
想象力	仅论元	论元 + 修饰行值
学习效率	仅论元	仅作论元
复杂不完美环境	仅论元	修饰行值（派生节点渲染名）
DeepMind	仅论元	修饰行值（证据）

拓扑：

(复杂不完美) ── [的] ─▶ (环境)

{想象增强} ── [的] ─▶ {智能体}

                            ┄┄┄ {外发}
                            ╲
   {想象增强智能体} ── [具有] ─▶ {想象力}
                  │       └── [证据] ─▶ {DeepMind}
                  │
                  └── [需要提升] ─▶ {学习效率}
                              ├── [范围] ─▶ {复杂不完美环境}
                              ├── [工具] ─▶ {想象力}
                              └── [证据] ─▶ {DeepMind}

(复杂不完美) 标 () 是因为"复杂"+"不完美"是描述复合，单独不可查询；派生整体 {复杂不完美环境} 是可查询节点。

例 3 — 单句嵌套（意图链）

原文：DeepMind 提出 X，旨在应对真实世界的复杂性，从而提升深度强化学习的性能。

unit 文本（依赖文档 §5.I 元话语降级 + §5.III 意图链嵌套）：

{真实世界}[具有]{复杂性}               # u_a
{深度强化学习}[需要提升]{性能}         # u_b

{X}[目的是]{u_a}, {u_b}
()[证据]{DeepMind}

节点角色：S* = {真实世界, 深度强化学习, X} → 入口节点；其余 → 仅论元节点。

拓扑（嵌套用 [P] 直连 [P]）：

{真实世界} ── [具有] ─▶ {复杂性}
                       ↑
                       │
{X} ── [目的是] ────────┤
       │               ↓
       │     {深度强化学习} ── [需要提升] ─▶ {性能}
       └── [证据] ─▶ {DeepMind}

[目的是] 的两个论元位接的是另外两个 [P]（u_a / u_b 的谓词），不是中间套 {X}——这是嵌套的几何特征。

例 4 — 跨句的全局节点缝合

原文（两句一段）：DeepMind 提出了想象增强智能体。该智能体在复杂环境中具有更高的学习效率。

unit 文本（两段抽取块，每段独立局部 ID 域；节点跨段共享）：

{想象增强}[的]{智能体}
{想象增强智能体}[同义]{DeepMind 提出的想象增强智能体}
()[证据]{DeepMind}

{想象增强智能体}[具有]{学习效率}
()[范围](环境)
()[程度](复杂)            # b 类评价 — 修饰行
()[程度](更高)            # c 类无锚比较 — 修饰行

节点角色（全局收集）：

入口节点：想象增强、想象增强智能体
仅论元节点：智能体、DeepMind、环境、学习效率

想象增强智能体 在第一段是主体（同义声明）、第二段还是主体（具有），两段共用同一实例——把两段子图缝合到一起。这是 §3.1 在跨句场景的直接体现。

第二段没有派生 {复杂}[的]{环境}——按依赖文档 §2.3 评价 / 无锚比较类，"复杂"和"更高"应化为修饰行 ()[程度](X)，避免引入不可查询节点 (复杂) / (更高) 进派生。

例 5 — 整篇文章（4 段）：摘要驱动 + 跨段桥接

原文（GAN-based domain adaptation 论文摘要）：

使用带有精心注释的图像数据集来训练现代机器学习算法，对于许多任务来说都是非常昂贵的。一个很有吸引力的替代方案是渲染合成数据，其中 ground-truth 注释会自动生成。不幸的是，纯粹在渲染图像上进行训练的模型通常不能推广到真实图像。为了解决这个缺点，此前有研究引入无监督的领域自适应算法，尝试在两个域之间映射表示，或者学习提取不变的特征。在这项工作中，我们提出了一种新的方法，以无监督的方式学习实现从一个域到另一个域在像素空间上的转换。我们基于生成对抗网络（GAN）的模型能够适应源域映像，就像从目标域中绘制的一样。我们的方法不仅产生了合理的样本，而且在某些无监督的域适应场景中也远远胜过最先进的技术。最后，我们展示了适应过程生成了在训练过程中没有见过的物体类别。

摘要（剥叙述外壳）

把"我们提出 / 我们展示 / 不幸的是 / 很有吸引力"等评价词与元话语丢掉、重复合并：

问题——训练现代 ML 算法需要精心注释的图像数据集，标注成本高。
替代方案的缺陷——渲染合成数据虽自动生成注释，但纯渲染图像训练的模型在真实图像上泛化差。
已有解——无监督领域自适应算法，通过映射两域表示或提取不变特征实现。
本工作——基于 GAN 的模型，在像素空间做源域 → 目标域无监督转换；属于 UDA 新成员，超越 SOTA，并能生成训练时未见的物体类别。

四块 = 4 段抽取块。每块对应一条 spine。

视觉拓扑

派生 / 同义：
   {现代} ── [的] ─▶ {机器学习算法}              {现代机器学习算法} ── [的] ─▶ (训练)
   {精心注释} ── [的] ─▶ {图像数据集}            {精心注释图像数据集} ── [的] ─▶ (替代方案)
   {渲染} ── [的] ─▶ {合成数据}                  {渲染} ── [的] ─▶ (图像)
   {在渲染图像上} ── [的] ─▶ (训练)              {在渲染图像上训练} ── [的] ─▶ (模型)
   {无监督} ── [的] ─▶ {领域自适应算法}          {基于 GAN} ── [的] ─▶ (模型)
   {GAN} ── [同义] ── {生成对抗网络}


{现代机器学习算法训练} ── [需要] ─▶ {精心注释图像数据集} ── [具有] ─▶ {高成本}
                                              │
                                              │ [的]
                                              ▼
                                  {精心注释图像数据集的替代方案}
                                              ▲
                                              │ [属于]
                                              │
                                  {渲染合成数据} ── [具有] ─▶ {自动生成的 ground-truth 注释}


{在渲染图像上训练的模型} ── [需要] ─▶ {泛化到真实图像的能力}
                                              ▲
                                              │ [目的是]
                                              │
      {映射两域表示}, {提取不变特征} ◀── [通过] ── {无监督领域自适应算法}
                                                       ▲              ▲
                                                       │ [属于]       │ [属于]
                                                       │              │
                                                {基于 GAN 的模型} ── [优于] ─▶ {最先进技术}
                                                   ★ spine                  └── [范围] ─▶ {某些无监督域适应场景}
                                                       │
                                                       ├── [实现] ─▶ {源域到目标域的像素空间无监督转换}  ★
                                                       │
                                                       └── [具有] ─▶ {生成训练未见类别能力}

整篇 spine 落在 {基于 GAN 的模型} ──[实现]─▶ {源域到目标域的像素空间无监督转换}——本工作的 headline 断言。共 12 主 unit + 4 修饰行 + 11 派生 / 同义。

证据修饰行按统一规则：段 3（无监督领域自适应算法）系列 ()[证据]{此前研究}；段 4（基于 GAN 的模型）系列 ()[证据]{本工作}。

可查询性标记：{现代} / {无监督} / {渲染} / {GAN} 都通过依赖文档 §2.2 测试；(精心注释) / (在渲染图像上) / (基于 GAN) 是描述性派生 M（standalone 不承载，但派生整体 {...} 通过测试）；(模型) / (训练) / (图像) 是通用角色名词（standalone 不承载，通过修饰特化后渲染整体承载）。

关系展开（每个箭头一行）

# 派生 / 同义（11）
{现代}[的]{机器学习算法}
{现代机器学习算法}[的](训练)
{精心注释}[的]{图像数据集}
{精心注释图像数据集}[的](替代方案)
{渲染}[的]{合成数据}
{渲染}[的](图像)
{在渲染图像上}[的](训练)
{在渲染图像上训练}[的](模型)
{无监督}[的]{领域自适应算法}
{基于 GAN}[的](模型)
{GAN}[同义]{生成对抗网络}

# 段 1 — 问题
u1.1  {现代机器学习算法训练}[需要]{精心注释图像数据集}
u1.2  {精心注释图像数据集}[具有]{高成本}

# 段 2 — 替代方案缺陷
u2.1  {渲染合成数据}[属于]{精心注释图像数据集的替代方案}
u2.2  {在渲染图像上训练的模型}[需要]{泛化到真实图像的能力}
u2.3  {渲染合成数据}[具有]{自动生成的 ground-truth 注释}

# 段 3 — 已有解
u3.1  {无监督领域自适应算法}[目的是]{s2.u2}              # 嵌套到 u2.2 的 [需要]
u3.2  {无监督领域自适应算法}[通过]{映射两域表示}, {提取不变特征}

# 段 4 — 本工作
u4.1  {基于 GAN 的模型}[属于]{无监督领域自适应算法}
u4.2  {基于 GAN 的模型}[实现]{源域到目标域的像素空间无监督转换}   ★ headline spine
u4.3  {基于 GAN 的模型}[优于]{最先进技术}
        ()[范围]{某些无监督域适应场景}                    # 修饰 u4.3 的 [优于]
u4.4  {基于 GAN 的模型}[具有]{生成训练未见类别能力}
u4.5  {最先进技术}[属于]{无监督领域自适应算法}

24 行 = 11 派生 / 同义 + 12 主 unit + 1 修饰行。[证据] 系列修饰行按统一规则补在所属 unit 上，未单列。

跨段桥接

5 条 unit 把 4 段缝起来：

u2.1 {渲染合成数据}[属于]{精心注释图像数据集的替代方案} — 段 2 ↔ 段 1，靠派生节点链回；
u3.1 {无监督领域自适应算法}[目的是]{s2.u2} — 段 3 → 段 2；
u4.1 {基于 GAN 的模型}[属于]{无监督领域自适应算法} — 段 4 → 段 3；
u4.5 {最先进技术}[属于]{无监督领域自适应算法} — 段 4 → 段 3。

沿 u4.1 / u4.5 的 [属于] 闭包，u3.1 的 [目的是 s2.u2] 自动继承到 {基于 GAN 的模型} 与 {最先进技术}——无须再画显式 [目的是 s2.u2] 边。

摘要丢失的内容

原文表达	丢失的认知内容	严格抽取应补
"通常不能泛化"	强度（"通常" ≠ "一定"）	`()[量化](大多数)` 或 `()[置信度]`
"远远胜过"	比较程度	`()[程度](远远)`
"合理的样本"	一项独立的能力声明	单独 unit `(基于 GAN 的模型)[具有](合理样本生成能力)`

下游若依赖这些细节（研究综述强度对比、模型能力清单），从摘要回原文补全。摘要驱动的目标是知识图谱的长期可推理，不是完整还原原文。

摘要驱动 vs 句对句抽取

维度	句对句	摘要驱动
段数	7	4
主 unit 数	16	11
修饰行	多（量化 / 程度 / 置信度 / 方式）	仅必要的 `[范围]` / `[证据]`
丢弃	几乎不丢，全保留为修饰行	评价词 / 频率 / 程度 / 重复事实丢
适用	需要追溯到原文具体表述	进入领域知识库，做长期推理

§6 Trade-off

取舍	内容
图的稀疏 vs 稠密	单句输入产出小图（5–15 节点）、入口节点的 `┄┄` 尾巴大多是占位；整篇文章产出大图、跨段缝合后入口节点之间连接稠密、尾巴语义实化
谓词不共享 `[P]`	同义反复的谓词会让图上出现多个相同标签的 `[P]` 实例。优势：边类型清晰、不会因共享谓词节点引起拓扑歧义。查询时再沿 `同义` + `的` 闭包归并
修饰行视觉密度	unit 修饰行多时一条 `[P]` 上会挂 4–6 个子 `[P]`。可选折叠为单行标签 `(范围: X, 工具: Y, 证据: Z)`，但折叠版只用于显示，不进图遍历
派生节点的双重身份	`M[的]{B}` 既贡献 M（入口；M 为 `{M}` 时独立可查询，为 `(M)` 时描述性派生），又让 `{MB}` 渲染名指向 M 实例。查图时基础节点 B 上不会展开 M 的具体断言
不渲染语言层信息	焦点 / 主题前置、口吻、句末语气词、被动主动不入图。原则上图与 unit 集等价，不多不少
段边界由抽取者决定	原文的自然段往往不等于抽取段。把哪些句子合一段（共享 `()` 指代和局部 ID）是抽取者的工程判断——段太大局部 ID 容易冲突，段太小同句的修饰行被迫升格为重复主 unit
主线选定 vs 多焦点段	主 unit 标记要求抽取者主观判断"本段最核心是哪条断言"。叙事性强的段易选定；纯枚举段（条目列表 / 平行陈述）可能无自然中心，主 unit 标 `null`，所有 unit 平行
视觉边标签 vs unit 谓词	视觉用自然连接词让人读着顺，unit 文本写 family 谓词让查询走 family 闭包。映射不强制一对一——抽取者用判断力让两边都自然，关键是 unit 文本的 ground truth 仍可机器消费

Transformer

KV Cache

ChatGLM3典型计算图

Tokenization

Transformer in CV

新方法

Attention是不是必须的

神经网络的逻辑

改进大规模训练稀疏自编码器的方法

Transformer NLP到底有没有智能？

LLM大语言模型的训练

Transformer黑盒

NSA 稀疏注意力机制 by deepseek

FlashAttention

MLA by Deekseek

幻觉

LLM信息空间的映射

LLM推理行为

梯度下降-拟合高层次的信息

生物脑（人脑）的优势

意识（自我）

人脑的工作原理

仿真人脑的基本条件

人脑的推理模型

人脑的本能

CoT & 强化学习

分层LLM推理与Scaling思维模板

自然语言的内在逻辑

RAG

记忆方法学

思维编织器 WeaveMind

记忆对于LLM的意义

人类记忆

大脑记忆的核心机制

现代汉语：语法解析

现在汉语：语法结构对SVO表示的挑战

认知图：1.以谓词作为概念

认知图：2.图构建方法

认知图：3.入库与查询流水线

Meaning Dataset 详细介绍文档

附带meaning tree信息的数据集

AI突破的可能

计算模型

自洽后就有意识了吗？

动态算法

短期记忆和长期记忆

通用Agent的发展

Agentic Engineering 智能体编排

Agent Harness 解剖：生产级智能体外壳的 12 个组件

私人LLM评测 数据集和结果

卷积计算的测试

复杂工程的实践测试

一种理想的智能体编排架构

理想架构-Harness12对照分析

基于关键词的知识图

认知图：2.图构建方法

文本到认知图：图构建方法

§1 总览

1.1 输入与输出

1.2 范围

1.3 流程概览

1.4 记号约定

§2 构建流程

2.1 句法解析与语言层预处理

2.2 复句拆分

2.3 抽取 unit 集

2.4 节点收集与角色判定

2.5 主线选定

2.6 图拓扑装配

2.7 多段输入处理

§3 不变量

§4 序列化形式

4.1 unit 文本（主输出，ground truth）

4.2 拓扑摘要（派生输出，可选）

§5 示例

例 1 — 单句简单陈述

例 2 — 单句派生 + 修饰行

例 3 — 单句嵌套（意图链）

例 4 — 跨句的全局节点缝合

例 5 — 整篇文章（4 段）：摘要驱动 + 跨段桥接

私人LLM评测数据集和结果