Skip to main content

认知图:1.以谓词作为概念

认知图:以谓词作为概念

把自然语言压成机械可操作的图。文档定位:规范态(spec)。


  • §1 总览

    1.1 输入与输出

    输入:自然语言。输入:自然语言文本。

输出:unit

集合——以世界中持久成立的事实与逻辑骨架为内容的结构化记录。

1.2 范围

输出:unit——把世界里持久成立的事实和逻辑骨架结构化下来。

思考 包括四种操作:比较推理整合自洽——分别对应下面四条抽取原则。

覆盖范围:对象:自然语言可表达的认知。图像、肌肉记忆、现象意识不在内。


一、核心思路

文本里的内容分两层:接受的信息损失:

  • 事实层 表层语序— 关于世界状态、关系、能力、需求、意图的持久知识。这是要存的东西。

    焦点、主题前置、口吻、被动主动、句末语气词;其承载的认知内容由命题态度族与修饰行表达;
  • 叙述外壳 叙述外壳— "谁说的 / 谁提出的谁阐释" /等元话语,降级为修饰行 哪篇论文 / 哪个博客介绍 / 谁阐释了 / 谁测试发现"()[证据]这是关于人类怎么讨论事实的元信息,绝大多数情况降级为出处或丢弃。

1.3 系统部件

抽取的工作是剥掉叙述外壳,保留事实内核。"DeepMind 提出 X 架构" 里值得入图的不是"提出"这个动作,是 X 架构本身的属性。"DeepMind"作为出处挂在 X 架构事实的 [证据] 行上即可。按以下层组成,后续章节依次定义:

接受语言层信息损失:焦点

章节 定义 节点 §2 unit 的最小构成单位,按是否承载信息二分 谓词 §3 unit 的关系类型,分结构 / 主题前置、口吻、句末语气词、被动主动这类表层语序不输出;原文是刺激和材料,本身没有义务对应到存储形式。内容
/

二、数据模型

修饰三类

图里只有一种东西:unit。

unit §4 由主体 + 谓词 + 论元构成的最小结构单元 抽取原则 §5 从原文到 unit 的转换约束 抽取流程 §6 实施原则的操作步骤 查询 §7 基于 unit 图的反向索引与遍历

1.4 记号约定

记号 含义 {X} 可查询节点(承载信息) (X) 不可查询节点(修饰、派生组合的一部分) () 空 修饰行回指占位 <X> 模板 / schema 槽位(说明用,不出现在 unit 的标准形态文本里)


{主体}[谓词]{论元},
{论元},谓词位
...

    主体 — 1 个 node。unit 的入口,反向索引由它登记。

    谓词 — 1 个 node。承载关系类型。

    论元 — 0 到 N 个 node,逗号分隔。其他参与方。

    节点位置使用

    {X}u_a / (X)u_b 二分标记可查询性,详见/ 段内局部 unit ID

    §二.2。()(空)保留作修饰行回指(§二.3)。2 节点

    2.1 节点形态

    例:

    节点是
    {深蓝}[击败]{卡斯帕罗夫}unit {想象增强智能体架构}[结合]{无模型方法}, {基于模型方法}
    {算法}[具有]()                              # 0 论元也合法
    

    主体单一是约定(不是 [深蓝, 卡斯帕罗夫])。"深蓝击败卡斯帕罗夫" 中卡斯帕罗夫的反向索引由 §四 context_mentions 登记,不靠多入口。中的最小构成单位。出现位置:主体、谓词、论元、修饰行的值。同一节点全图唯一。

    2.2 节点可查询性Queryability {} vs ()标记

    2.1 单条核心原则

    unit 文本里所有节点位置按是否承载信息二分标记:每个节点位置按是否承载信息二分:

    标记 定义
    {X} 承载者:在文档所属域内,X 信息承载者——在文档所属域里,X 单独出现时能稳定指向某具体事物单独出现能稳定指向具体事物 / 概念 / 类,且关于 X 的事实是 non-trivial 且 non-vacuous 的
    (X) X 不是承载者——只是修饰、描述、或派生组合的一部分,非承载者:仅作修饰、描述或派生组合的一部分,不能独立承载信息
    ()(空) 修饰行回指(§二.3);与非空 (X) 由"是否为空"区分

    域相对性:queryability域相对性:标记按文档所属域判定,同一文档内一致。同一词在不同域可能不同——"图像" 按文档所属域判定。同一词在不同域 queryability 可能不同(如"图像"在 CS 视觉域是通用角色视觉域为 (图像)在艺术史域可能是 specific concept在艺术史域可能为 {图像}同一文档内需保持一致。

    2.2 两个判别测试(

    判别测试——任一通过 → {X},两者都不通过 → (X)

    测试 A — 三件 non-trivial 的事关于 X 你能说出至少三件 non-trivial 的事吗?

    • 张三测试 A:关于 出生年、雇主、毕业院校…X 是否能说出三件 {张三}non-trivial 的事?
    • 机器学习算法测试 B:原文中 学习模式、监督性、典型成员…X {机器学习算法}
    训练 → 只能给出"调整参数"这类定义性 / 普适性陈述 → (训练) 非常 → 完全说不出 → (非常)去掉所有修饰后,是否仍可独立成句作主语?

    测试 B — 去修饰独立成句:原文中 X 去掉所有修饰词后还能独立成句作主语吗?

      "现代机器学习算法" → 去掉"现代" → "机器学习算法 是 ..." 成立 → {机器学习算法} "更高级的设计描述语言" → 去掉"更" → "高级设计描述语言 是 ..." 成立 → {高级} + ()[程度](更) "替代方案" → 单"替代方案"无法成主语("什么的替代方案?")→ (替代方案)

      2.3 派生 node 合法性 M[的]B

      三条约束:

        渲染名 {MB} 必须通过 §2.2 测试(即派生整体可查询) M 不能是纯 hedge / intensifier(评价副词、无锚比较、量化 hedge 等——这些没有贡献到派生的具体性,必须改走修饰行;见 §2.5 appendix) M 与 B 各按 standalone 是否承载信息标记 {} 或 (...)

        只要 1+2 满足,四种组合都合法判别示例:

        形态 A 解读B
        标记 {M}[的]{B}张三 ✓(出生年、雇主、毕业院校) {无监督}[的]{领域自适应算法}张三} → {无监督领域自适应算法} M 与 B 都独立承载 {M}[的](B)机器学习算法 ✓(学习模式、监督性、典型成员) {现代机器学习算法}[的](训练)机器学习算法} → {现代机器学习算法训练} M specific,B 通用角色 (M)[的]{B}训练 ✗(仅有定义) 勉强 (精心注释)[的]{图像数据集}训练) → {精心注释图像数据集} M 描述性短语,B 独立承载 (M)[的](B)非常 (基于 GAN)[的](模型) → {基于 GAN 的模型}非常) M图像数据集 ✓(典型成员 BImageNet) 都不独立承载,但派生整体承载 {图像数据集}

        唯一非法:M抽取时机:标记由 是纯LLM hedge(约束 2§6 违反)。例步骤 (更高级)[的]{X}4 —— "更高级"是无锚比较,必须改走修饰行。逐节点直接判断。

        2.3 非承载者参考

        修复 hedge M 的常见模式

        (更高级)[的]{设计描述语言}  → {高级}[的]{设计描述语言} + ()[程度](更)
        (完善)[的]{方法学}          → {方法学} + ()[置信度](完善)
        (非常)[的]{昂贵}            → {昂贵} + ()[程度](非常)
        (亟待解决)[的](问题)        → (问题) + ()[模态](亟待解决)  # 注:渲染整体 {亟待解决问题} 仍 queryable
        

        2.4 修饰行论元值同样按下表为常见非承载者的归纳,供抽取时校准直觉;非字符串匹配规则,具体标记仍由 §2.2 测试标记

        ()[发生时间]{1997 年}      # 时间锚承载(specific 时刻)
        ()[证据]{Kukushkin}        # 出处承载(人名)
        ()[程度](非常)             # 程度副词不承载
        ()[置信度](low)            # 元标签不承载
        ()[范围]{深度学习}         # 域承载
        ()[范围](广泛)             # 评价不承载
        

        2.5 schema 与模板:<X>

        抽取流程图(§五)和模板示意中表达"待填充的 schema 槽位"用 <X>,与实际 unit 文本的 {}/() 区分:

        <施事>[谓词]<受事>     # schema (模板)
        {张三}[打]{李四}       # 实例 (实际 unit)
        

        2.6 Appendix:常见非承载者举例(LLM 抽取时的直觉校准参考,不是查表规则

        关键说明:queryability 标记是 LLM 抽取时逐节点应用 §2.2 测试的语义判断结果——不是事后用脚本 / 词典批处理出来的。下表只是常见 non-bearer 的归纳,帮助 LLM 校准对"承载信息"的直觉,不是字符串匹配规则。同一个词在不同文档域可能不同分类,总是回到 §2.1 + §2.2 重新判断,不要查表替代判断。测试逐节点判断。

        评价 / hedge (几乎不可能在任何域里成为承载者)类(在任何域几乎不可能成为承载者)

        成员
        程度副词 非常 / 远远 / 十分 / 大大 / 极 / 更加
        主观评价 重要 / 关键 / 优秀 / 完善 / 巨大 / 强大 / 著名 / 深刻 / 惊人 / 复杂
        无锚比较 更高级 / 更强 / 更快 / 更好 / 越来越...越来越…若有明确基线 → 拆为有明确基线则改写 {X}[大于]{Y}
        量化 hedge 大量 / 许多 / 一些 / 几乎
        频率 / 模态 hedge 通常 / 往往 / 可能 / 希望 / 推测
        强调 / 指示 真正的 / 所谓的 / 这样 / 某种 / 任何
        通用描述词 典型 / 具体 / 常规 / 普通 / 一般 / 基本
        时代 hedge(无锚)hedge 古老 / 过去 / 最近 / 近年(配具体时间则改用近年(配具体时间则用 ()[发生时间]{1997}

        通用角色名词类通用角色名词(在 CS / ML 域里通常 referent 过宽,需要修饰才特化)需修饰特化)

        成员
        过程 / 行为 训练 / 测试 / 评估 / 验证 / 学习 / 推理 / 调优 / 处理 / 转换
        主体 / 容器 模型 / 方法 / 系统 / 框架 / 架构 / 工具 / 平台
        数据 / 输入输出 数据 / 样本 / 信息 / 内容 / 输入 / 输出
        模态 图像 / 文本 / 视频 / 音频 / 信号
        抽象属性 特征 / 属性 / 能力 / 功能 / 性质 / 状态 / 维度
        流程结构 过程 / 阶段 / 步骤 / 操作 / 动作 / 结果 / 效果
        选择 / 替代 方案 / 选择 / 替代方案 / 选项 / 候选
        资源 / 环境 资源 / 环境 / 场景

        §3 谓词

        否定派生专用(否定) —— 仅在 (否定)[的]{X} 中使用,渲染 [不 X]谓词本身为节点,可被细化、同义、否定。分三类:结构、内容、修饰。

        3.1 结构谓词(封闭,6 个)

        判定示例(应用不描述世界事实,描述 §2.2unit 测试):/ 节点间的关系。每条有特定查询语义。

        测试 A 结果 测试 B 结果 标记 理由 张三 通过(多 facts) 通过(成主语) {张三} 专名 机器学习算法 通过(成员、性质…) 通过 {机器学习算法} 子域 训练 不通过(只有定义) 通过("训练 是…"勉强) (训练) 通用角色 模型 不通过 通过(勉强) (模型) 通用角色 非常 不通过 不通过 (非常) hedge 图像数据集 通过(典型成员 ImageNet…) 通过 {图像数据集} 已通过修饰特化 精心注释图像数据集 通过(特定 sub-class) 通过 {精心注释图像数据集} 派生整体承载

        3. 修饰行:()[修饰谓词](值)

        紧跟主 unit 的若干行,第一个括号空:

        {想象增强智能体架构}[结合]{无模型方法}, {基于模型方法}
        ()[证据]{论文-IAA}
        ()[发生时间]{2017}
        

        () 的展开规则

          () = 同一段(被空行或下一条非空主 unit 终止之前)内最近一条非 () 开头的主 unit

          上例第二、三行展开为 {<主 unit ID>}[证据]{论文-IAA} 和 {<主 unit ID>}[发生时间]{2017}

          段终止后 () 不再有指代,必须重起一条主 unit。

          一条主 unit 可以带任意条修饰行,顺序不重要。

          修饰行是 unit,跟主 unit 同等地位——也进 subject_mentions / context_mentions。把它放成 ()[…](…) 行只是写作上避免重复主 unit ID。

          4. 局部 ID 与嵌套

          意图、因果、条件、命题态度需要把"另一些 unit"作为论元装进来。给被嵌套的 unit 起一个段内局部 ID(u_a / u_b / ……),在外层 unit 的论元位上引用:

          {真实世界}[具有]{复杂性}, {不完美性}              # u_a
          {深度强化学习}[需要提升]{性能}, {鲁棒性}          # u_b
          {想象增强智能体}[目的是]{u_a}, {u_b}
          ()[证据]{DeepMind}, {论文-IAA}
          

          局部 ID 仅在本段(一句的抽取块)内有效。跨段引用必须用持久的 unit ID(图里给每条 unit 分配的全局 ID,写法可自行约定,例如 s2.u3)。

          5. 派生 node

          unit 用到比已有 node 更窄的概念时,写一条 M[的]B 主 unit 引入派生 node。M 与 B 的合法形态见 §二.2.3——简言之只要 (1) 渲染名 {MB} 通过 §2.2 测试,(2) M 不是纯 hedge,则 M 与 B 各自按 standalone 是否承载信息标记 {} 或 (...),四种组合都合法。

          合法派生例(覆盖四种组合):

          {无监督}[的]{领域自适应算法}             # {M}[的]{B} — M 与 B 都独立承载
          {现代机器学习算法}[的](训练)             # {M}[的](B) — M specific, B 通用角色
          (精心注释)[的]{图像数据集}               # (M)[的]{B} — M 描述性,B 独立承载
          (基于 GAN)[的](模型)                     # (M)[的](B) — M 与 B 都不独立承载,但派生整体承载
          

          读法:"修饰" 修饰 "基础",整体是一个比 "基础" 更窄的派生 node {MB}。每条这样的 unit 同时引入一个渲染名修饰的基础,或在中文里自然省略  时的 修饰基础),后续在其他 unit 里引用派生 node 时直接用渲染名:

          {基于 GAN 的模型}[实现]{源域到目标域转换}
          {现代机器学习算法训练}[需要]{精心注释图像数据集}
          

          派生关系沿  主 unit 反查(§六 narrowed_by 索引)。每条声明只写一次基础 node——不再写 {基于 GAN 的模型}[派生自](模型) 这种把 "模型" 重复两遍的形式。

          6. 同义命名

          跟普通 unit 同形态,谓词用 同义

          {论文-IAA}[同义]{《深度强化学习的想象增强智能体》}
          {想象增强智能体}[同义]{具备想象和计划能力的智能体}
          

          两边在查询时可互换。

          7. 不输出

          抽取是输入文本到 unit 的转换。没有实际表达意义的"空话"不输出为 unit:填充词("其实"、"嘛"、"啊"用于语气而非内容)、纯重复 / 同义反复、纯粹起表层标记作用的虚词。

          注意:焦点、被动主动、句末语气词不是天然丢弃——它们承载的认知内容(强调点、施事 / 受事、句类、信息来源)通过修饰行表达;只有当这些标记纯粹起语言学表层功能、不携带认知内容时才丢弃。


          三、谓词分类

          谓词本身是 node,跟其他 node 一样可以被细化、同义、否定。分两大类:

          1. 结构 predicate

          不描述世界事实,而是描述 unit / node 之间的关系。每条都有特定的查询语义。

          predicate谓词 含义 查询语义 同义 A 与 B 等价 / 可互换;同时覆盖三类:命名别名(论文-IAA 同义 《...》)、跨语言对照(GAN 同义 生成对抗网络)、可互换。覆盖命名别名、跨语言对照、定义性 identity(记忆 同义 系统本身——A 与 B 不是两件相似的事,而是同一对象的两个表达)identity 自动派生派生 ≡ 索引;查询时节点合并 属于 X 是 Y 的真子类(显式分类)的真子类 沿继承闭包传递;Y 的全集断言适用于 X M[的]{B} 引入派生 node引入派生节点 {MB}——M 是修饰,B 是基础 node。M 可为 {M} 或 (M)(合法性见 §二.2.4) 不传递;派生 node 上的特殊断言不被推到派生节点上的特殊断言不推到 B 上去 相关于 A、B 共现且语义相关,但说不清逻辑关系 自动派生派生索引;通常由共现 + LLM 确认入库索引 negates 两个 predicate 互为否定两个谓词互为否定 原则 §5.IV 矛盾判定 被取代 旧 unit 被新 unit 取代 自动派生派生 ⇒ 索引;常态查询沿 ⇒ 链取末端常态查询取末端

          2.3.2 内容 predicate内容谓词

          描述世界事实。按语义角色分 family 归并——同 family 的成员在认知层等价(成员在认知层等价("应对" ≡ "处理" ≡ "解决"),下游遍历沿 同义 + 闭包就能找到所有变体。闭包找到所有变体;不同 family 不互通("应对" ≠ "导致")。不互通。

          a. 静态描述与关系

          family 典型成员 用途 状态 / 属性 具有, 是, 处于 实体的属性、静态状态 拥有 / 归属 拥有, 占有, 持有 主体与所有物之间的归属关系 需求 需要, 缺乏, 渴求 原则 II 改写动作的目标 部分-整体 是...的一部分, 包括, 组成, 含有 部分-整体 / 集合-成员(区别于 属于 子类分类) 位置 / 空间 位于, 邻近, 接触, 包围 实体间的空间关系 比较 / 程度 大于, 等于, 类似, 不同, 优于 两个 node 在某维度上的比较

          b. 动作与事件

          family 典型成员 用途 动作 / 事件 提出, 发明, 击败, 塑造, 变成 一次性事件 / 状态变化;典型情况下用原则 II 改写为状态 / 需求 信息处理(动作子类) 激发, 编码, 转换, 重塑, 分解, 识别, 触发 描述大脑 / 神经系统 / ML 模型的内部处理机制;按原文动词保留(机制描述本身就是事实),不归并到「动作」基础成员;下游可用此子类标签筛选"机制描述" 解决 应对, 处理, 面对, 解决 主体解决某问题 通过 借助, 通过, 利用 主体借助某手段 时序 之前, 之后, 同时, 期间, 持续, 起始于, 终止于 命题 / 事件之间的时间关系(与修饰谓词 发生时间 不同——后者给 unit 加时间标签)。起始于 / 终止于 表达"过程的端点"("人类记忆起始于细节")

          c. 逻辑修饰

          family 典型成员 用途 因果 导致, 造成, 引起, 诱发 已发生的因果链;论元为嵌套 unit 局部 ID 数量变化 增加, 减少(带方向;同义吸收 加强 / 减弱 / 提升 / 降低 / 缩短 / 扩大 / 节省 主体在某维度上的方向性数量变化;区别于 导致(无方向、不限维度)。常配 ()[程度](X 倍/百分比) 修饰行。论文场景高频:"新方案缩短注释时间 9-18 倍"、"经历加强突触连接" 意图 / 目的 目的是, 旨在, 为了, 借以 未发生的意图(in order to thereby) 模态 应该, 必须, 可能, 可以 命题的模态修饰;论元为嵌套 unit 局部 ID 或常规 node

          d. 命题态度

          family 典型成员 用途 言语行为 / 命题态度 主张, 相信, 知道, 认为, 怀疑 主体对命题的态度;论元为嵌套 unit 局部 ID 桥接(目的-手段-回应) 回应, 实现, 解决, 服务于, 满足 原则 II 中把 S 连到状态 / 需求 node 的 bridge unit

          [实现] 辨别启发——实现 是桥接归并目标:表面可写 family 基础成员,但抽取者频繁误用为万能桥,覆盖到本应用 同义 / 导致 / 具有 表达的语义。三种用法的辨别:

          {S}[实现]{A} 中 A 的形态 正确归属 改写示例 状态 / 能力 / 解决方案 node(含"...能力 / ...水平 / ...支持") 桥接 ✓ {基于 GAN 模型}[实现]{源域到目标域转换}{注意力机制}[实现]{计算成本缩放} 与 S 同质的对象 / 事件 node(A "就是" S 的别名) 改写为 [同义] 误:{DQN}[实现]{RL 与 DL 整合} → 应:{DQN}[同义]{RL 与 DL 整合} 已发生的具体后果 / 度量结果 改写为 [导致] 或 [属于] 误:{DQN}[实现]{Atari 专家级} → 应:{DQN}[导致]{Atari 专家级表现}

          判别启发:去掉 [实现],问 "S 把这个状态 / 能力落地了吗?" —— 是 → 桥接;否(A 是 S 本体或后果)→ 改写。

          3. 修饰谓词

          出现在 ()[修饰谓词](值) 行里,给主 unit 附加上下文。这些谓词的"主语"统一是上一条主 unit。常见成员:

          修饰谓词 含义 证据 / 出处 这条事实出自谁 / 哪篇论文 / 哪个博客(叙述外壳的标准着陆点) 发生时间 / 地点 unit 成立的时间 / 地点 动作阶段 体:完成 / 进行 / 经验 / 起始 / 持续;缺省 = 完成 方式 / 程度 / 范围 谓词的修饰;优先拆到这里,再考虑细化谓词 node 工具 /  / 目标 / 接受者 / 候选 / 依据 论元角色——"用什么 / 从哪 / 到哪 / 给谁 / 在哪些里挑 / 按什么" 量化 全称 / 存在 / 数量(n);用于消除"每个学生都读过至少一本书"这类辖域歧义 否定辖域 否定作用在哪一项上(与谓词自身的否定区分;后者用 negates 模态 能 / 必须 / 可能 / 应该(语句级模态);含作者主观取向(希望 / 期待 / 推测 / 脑洞),常与 置信度 协同标注 speculative 断言 置信度 直接 / 推断 / 传闻;high / low。评论 / 观点文体下默认 low(区别于综述文体默认信任作者断言为科学共识)

          修饰谓词不封闭,按需新增。

          4. 谓词的修饰与细化

          修饰过的谓词也是 node,可以同样用 M[的]{基础谓词} 形式声明派生(M 与 B 的合法形态见 §二.2.4——B 必须 {},M 可为 {} 或 (...) 但不能属于 §二.2 9 类 hedge):

          {提升}[的]{需要}              # 派生 [需要提升]
          {降低}[的]{需要}              # 派生 [需要降低]
          {加倍}[的]{投入}              # 派生 [加倍投入]
          

          否定式断言 —— 用 (否定)[的]{基础谓词} 派生,与 不需要 / 不属于 / 不存在 / 不具有 同形态:

          (否定)[的]{需要}              # 派生 [不需要]
          (否定)[的]{具有}              # 派生 [不具有]
          {单独的记忆}[不具有]{独立存在性}
          

          优先:副词 / 程度 / 范围 / 时间拆到修饰行(()[方式]{独特}()[程度](深刻)()[发生时间]{1997}),让谓词留在 family 基础成员;只有当修饰已经融入核心动词的语义、无法拆分时才另立新谓词 node。

          反例(以独特方式深刻)[的]{塑造} —— "深刻" 属 §二.2 b 类主观评价、"以独特方式" 属表层修辞,整体应化为 {塑造}[谓词]{...} + ()[方式]{独特} + ()[程度](深刻)。同理 (于1997年)[的]{击败} 应化为 {击败} + ()[发生时间]{1997}

          5. 基础成员表(family 归并目标)

          冻结每个 family 的归并目标——抽取时表面可以写 family 内任何成员,内任意同义动词,存储 / 查询时归并到基础成员上。查询时归并到基础成员。新成员通过 (新成员)[同义](基础成员) 入库。

          3.2.1 单基础成员 family

          family(family 内成员同义归并到一个基础成员):内全部同义归并)
          family 基础成员 归并的同义成员同义成员
          状态 / 属性 具有 是, 处于, 表现为
          拥有 / 归属 拥有 占有, 持有
          需求 需要 缺乏, 渴求, 要求
          解决 应对 处理, 面对, 解决
          通过 通过 借助, 利用, 经由
          因果 导致 造成, 引起, 诱发
          意图 / 目的 目的是 旨在, 为了, 借以
          桥接桥接(目的-手段-回应) 实现 回应, 服务于, 满足
          命题态度(信) 认为 主张, 相信, 知道
          命题态度(疑) 怀疑 认为 通过 negates 关联

          命题态度

          3.2.2 在 §三.2.d 原本一行——这里按极性拆成 认为 / 怀疑 两个基础成员,否则 "谁相信 X" 的查询会把 "谁怀疑 X" 一并返回。

          多基础成员 familyfamily(family 内成员沿不同轴向,不可彼此合并;每个都是独立基础成员):

          内沿不同轴向,不可彼此合并)
          family 基础成员(彼此独立)基础成员
          用途 部分-整体 包括(整体→部分), 组成(部分→整体) 属于 子类分类区分 位置 / 空间 位于, 邻近, 接触, 包围 空间关系 比较 / 程度 大于, 小于, 等于, 类似, 不同, 优于, 小于两节点在某维度比较 时序 之前, 之后, 同时, 期间, 持续, 起始于, 终止于 命题 / 事件间时间关系(与修饰谓词 发生时间 不同) 模态 必须, 应该, 可能, 可以 命题级模态修饰 数量变化 增加, 减少(带方向;同义吸收 加强 / 减弱 / 提升 / 降低 / 缩短 / 扩大 / 节省主体在某维度的方向性变化;常配 ()[程度](X

          结构 predicate(见 §三.1,封闭 6 个):同义 / 属于 /  / 相关于 / negates / 被取代——每个都是独立基础成员,不可同义归并。

          修饰谓词(见 §三.3,开放新增 ~17 个基础成员):

          类别 基础成员 来源 证据(= 出处 时空 发生时间, 地点 体貌 动作阶段 谓词修饰 方式, 程度, 范围 论元角色 工具, , 目标, 接受者, 候选, 依据 辖域 量化, 否定辖域 语句级 模态, 置信度百分比)

          每条独立基础成员,新增按需,但应优先复用,避免同义漂移。

          3.2.3 不冻结的 family(按原文动词保留)

          不冻结的 family

            动作 / 事件:原则 II 事件:默认改写为 具有 / 需要 / 属于(见 §5.II)§四.I 三种例外(归属优先权、命题态度在场、历史事件)保留事件谓词时,三种例外保留事件谓词,直接用原文动词("击败"、"提出"、"毕业于"、"获得"、"发表"),不归并到基础成员。履历语境(人物经历、
              归属 / 优先权是关注点(学术优先权、履历语境、机构产出统计)也是该例外的自然延伸——归属本身是关注点。 信息处理(动作子类)命题态度在场; 历史事件。

              信息处理子类:激发 / 编码 / 转换 / 重塑 / 分解 / 识别 / 触发 等描述大脑 / 神经系统 / ML 模型内部机制的动词,按原文保留,不归并到「动作」基础成员。机制描述本身是事实——把"听觉皮层将声波转换为电信号"压成"听觉皮层按原文保留。压成 [具有] 声波到电信号转换能力"会丢失"是X 能力 会丢失 "active processing 不是 static capability" 的语义。

              3.2.4 常见动词归并参考

              常见动词归并示例表——抽取者首次遇到下列表层动词时,按此归并到既有基础成员,不要新立 family:按此归并:

              表层动词 归并到 判别理由判别
              借鉴 / 受...启发 / 源自 / 来自 起始于(时序) 技术血统 / 概念溯源——"X 借鉴 Y" = "X 起始于 Y"概念溯源
              启发 / 激发 / 推动 / 驱动 / 赶着...跑 导致(因果) 因果触发;agentive 语气在抽取层不保留语气不保留
              采用 / 使用 / 引入 包括(结构含 X)/ 通过(手段) "设计采用 X"X 包括;包括"通过 X 实现 Y" 通过
              结合 / 配合 / 协同 相关于(对称) / 包括(一方为整体) 看主从——平等结合 → 相关于;一方为整体 → 包括
              模仿 / 复制 / 仿照 同义(结构复制) / 起始于(设计血统) "X 复制 Y 的结构"结构复制同义;"X 模仿 Y 设计"同义;设计血统起始于
              帮助 / 助力 / 辅助 实现(能力达成) / 导致(因果) 看落地的是状态落地状态节点 node 还是后果实现;后果 → 导致
              提升 / 加强 / 缩短 / 节省 / 加速 增加 / 减少
              数量变化 family,带方向)带方向 减弱 / 衰减 / 放缓 见「数量变化」family减少 同上 涉及 / 覆盖 / 跨越 包括 整体→部分关系部分

              3.2.5 [实现] 辨别

              实现 是桥接 family 基础成员,但易被误用为万能桥。

              {S}[实现]{A} 中 A 的形态 正确归属 改写示例 状态 / 能力 / 解决方案节点 桥接(保留 实现 {基于 GAN 模型}[实现]{源域到目标域转换} 减弱与 S 同质的对象 / 衰减事件节点(A /"就是" 放缓S 的别名) 减少[同义](数量变化) 同上{DQN}[实现]{RL 与 DL 整合} → {DQN}[同义]{RL 与 DL 整合} 已发生的具体后果 / 度量结果 [导致] 或 [属于] {DQN}[实现]{Atari 专家级} → {DQN}[导致]{Atari 专家级表现}

              冻结的意义判别:去掉 [实现],问 "S 把这个状态 / 能力落地了吗?"——是 → 桥接;否 → 改写。

              3.3 修饰谓词(开放,约 17 个基础成员)

              出现在 ()[修饰谓词](值) 行,给主 unit 附加上下文。主语统一为上一条主 unit。

              类别 基础成员 含义 来源 证据(= 出处 事实来自谁 / 哪篇论文(叙述外壳标准着陆点) 时空 发生时间, 地点 unit 成立的时间 / 地点 体貌 动作阶段 完成 / 进行 / 经验 / 起始 / 持续;缺省 = 完成 谓词修饰 方式, 程度, 范围 优先拆到这里,再考虑细化谓词节点 论元角色 工具, , 目标, 接受者, 候选, 依据 用什么 / 从哪 / 到哪 / 给谁 / 在哪些里挑 / 按什么 辖域 量化, 否定辖域 量化:全称 / 存在 / 数量(n);否定辖域:否定作用项(与 negates 区分) 语句级 模态, 置信度 模态:能 / 必须 / 可能 / 应该;含作者主观取向。置信度:直接 / 推断 / 传闻;high / low。评论 / 观点文体默认 low

              修饰谓词不封闭,按需新增,但应优先复用。

              3.4 谓词派生

              修饰过的谓词亦为节点,用 M[的]{基础谓词} 派生。B 必须 {},M 可 {} 或 (...) 但不属于 §2.3 hedge 类。

              例:

              {提升}[的]{需要}              派生 [需要提升]
              {降低}[的]{需要}              派生 [需要降低]
              

              否定式断言:(否定)[的]{基础谓词} 派生,与 不需要 / 不属于 / 不存在 / 不具有 同形态:

              (否定)[的]{需要}              派生 [不需要]
              {单独的记忆}[不具有]{独立存在性}
              

              优先级:副词 / 程度 / 范围 / 时间优先拆到修饰行,谓词留在 family 基础成员;仅当修饰已融入核心动词语义无法拆分时,才另立新谓词节点。

              反例:(以独特方式深刻)[的]{塑造}——"深刻" 属主观评价、"以独特方式" 属表层修辞,应化为 {塑造}[谓词]{...} + ()[方式]{独特} + ()[程度](深刻)。同理 (于1997年)[的]{击败} 应化为 {击败} + ()[发生时间]{1997}


              §4 Unit

              图中只有一种结构单元:unit。

              4.1 Unit 形态

              {主体}[谓词]{论元}, {论元}, ...
              
              位置 数量 角色 主体 1 个节点 unit 的入口;反向索引由它登记 谓词 1 个节点 承载关系类型 论元 0 至 N 个节点,逗号分隔 其他参与方

              主体单一为约定,不写作 {深蓝, 卡斯帕罗夫}。论元的反向索引由 §7.1 context_mentions 登记。

              例:

              {深蓝}[击败]{卡斯帕罗夫}
              {想象增强智能体架构}[结合]{无模型方法}, {基于模型方法}
              {算法}[具有]()                              # 0 论元合法
              

              4.2 修饰行

              主 unit 后可附若干修饰行,第一括号留空:

              ()[修饰谓词](值)
              

              () 展开规则:指向同一段(被空行或下一条非空主 unit 终止之前)内最近一条非 () 开头的主 unit。段终止后 () 不再有指代。

              修饰行同等地位为 unit,进 subject_mentions / context_mentions;写作 ()[…](…) 仅为避免重复主 unit ID。值同样按 §2.2 测试标记 {} 或 (...)

              例:

              {想象增强智能体架构}[结合]{无模型方法}, {基于模型方法}
              ()[证据]{论文-IAA}
              ()[发生时间]{2017}
              ()[程度](非常)             # 程度副词不承载
              ()[置信度](low)            # 元标签不承载
              

              4.3 派生节点 M[的]B

              引用比已有节点更窄的概念时,先写一条 M[的]B 主 unit 引入派生节点。

              合法性约束:

                渲染名 {MB} 整体通过 §2.2 测试; M 不属于 §2.3 的 hedge 类; M、B 各按 standalone 是否承载信息标记 {} 或 (...)

                满足 1+2 后,四种组合均合法:

                形态 渲染名 {M}[的]{B} {无监督}[的]{领域自适应算法} {无监督领域自适应算法} {M}[的](B) {现代机器学习算法}[的](训练) {现代机器学习算法训练} (M)[的]{B} (精心注释)[的]{图像数据集} {精心注释图像数据集} (M)[的](B) (基于 GAN)[的](模型) {基于 GAN 模型}

                非法形态及修复——M 为纯 hedge:

                非法 改写 (更高级)[的]{设计描述语言} {高级}[的]{设计描述语言} + ()[程度](更) (完善)[的]{方法学} {方法学} + ()[置信度](完善) (非常)[的]{昂贵} {昂贵} + ()[程度](非常) (亟待解决)[的](问题) (问题) + ()[模态](亟待解决)

                否定派生:(否定)[的]{X},渲染 [不 X],专用于否定式断言。

                引用方式:后续 unit 直接以渲染名引用,不再重复声明派生关系:

                {基于 GAN 模型}[实现]{源域到目标域转换}
                {现代机器学习算法训练}[需要]{精心注释图像数据集}
                

                派生关系沿  主 unit 反查(§7.1 narrowed_by 索引)。

                4.4 嵌套与局部 ID

                意图、因果、条件、命题态度需要把另一些 unit 作为论元装入时,给被嵌套 unit 起段内局部 ID(u_a / u_b / ...),在外层 unit 论元位上引用:

                {真实世界}[具有]{复杂性}, {不完美性}              # u_a
                {深度强化学习}[需要提升]{性能}, {鲁棒性}          # u_b
                {想象增强智能体}[目的是]{u_a}, {u_b}
                ()[证据]{DeepMind}, {论文-IAA}
                

                局部 ID 仅在本段内有效。跨段引用须用持久 unit ID(如 s2.u3)。

                4.5 同义命名

                与普通 unit 同形态,谓词为 同义

                {论文-IAA}[同义]{《深度强化学习的想象增强智能体》}
                

                两边在查询时可互换。

                4.6 不输出的内容

                • 无认知内容的填充词("其实"、"嘛"、"啊"

                  抽取一致性:人作语气而非内容时);

                纯重复 / LLM 有显式归并目标,不再各凭判断。 同义反复;

                可审计:family 成员表新增走 PR review,避免基础成员悄悄漂移。

                闭包简单:常态查询沿固定 同义 链展开,不依赖 LLM 在线判断。

                纯表层语言学功能、不携带认知内容的虚词。

                核心谓词总数:结构 6 + 单基础成员 family 10 + 多基础成员 family ~26 + 修饰谓词 ~17 ≈ 59 个。这是查询语义需要区分的最小集—焦点、被动主动、句末语气词等并非默认丢弃—表层 unit 文本可以用任意同义动词,归并由 同义 闭包在入库时完成。其承载的认知内容(强调、施受、句类、信息来源)通过修饰行表达;仅在纯表层时丢弃。


                四、抽取四原则§5 抽取原则

                每条 unit 写出来时必须同时满足下面四条。这不是按顺序的步骤,必须同时满足下面四条;非顺序步骤,是约束的合取。

                I.I 事实优先(对应思考操作:思考操作:整合)

                规则:动词落在元话语动词族时,跳过它进它的宾语找事实;元话语主语降级为修饰行规则:动词属元话语动词族时,跳过它进宾语找事实;元话语主语降级为 ()[证据](S)

                元话语动词族(这些动词描述"人类怎么讨论事实",本身不描述世界):元话语动词族:

                言说族:言说:提出 / 介绍 / 阐释 / 主张 / 报道 / 发表 / 题为 / 写道 / 论证 / 总结
                观察族:观察:测试 / 验证 / 观察 / 发现 / 记录
                

                操作模板模板:

                原文:S [元话语动词] X,X 的内容是 ...
                抽取:{X}[内容动词]{...}
                      ()[证据]{S}
                

                例:

                原文:DeepMind 提出 X 架构,X 结合无模型与基于模型方法
                抽取:{X 架构}[结合]{无模型方法}, {基于模型方法}
                      ()[证据]{DeepMind}
                

                何时不能降级例外——三种情况叙述事件本身就是世界事实:叙述事件本身即世界事实,不能降级:

                1. 归属 / 优先权是关注点("X 首次提出 Y" 在学术语境;"韩玫发表 30+ 篇论文" 在履历语境;"谷歌 2017 年发表 21 篇 CVPR 论文" 在机构产出统计语境——三者共性:归属本身是要存的事实,不是关于事实的元话语)。学术优先权语境、履历语境、机构产出统计);
                2. 命题态度在场("X 怀疑 Y"——态度本身是事实,归 §三 命题态度 family)。态度本身是事实);
                3. 历史事件("深蓝击败卡斯帕罗夫"——不是元话语,是真发生的世界事件;履历事件 "韩玫毕业于清华"、"韩玫 2001 年获 CMU 博士" 同属此类)

                判别启发:去掉这个动词,判别:去掉该动词,宾语作为独立事实是否仍然成立且更纯净?是 → 降级;否 → 保留。

                II.II 最具体的标识符(对应思考操作:思考操作:整合)

                规则规则:主体 / 谓词 / 论元 / 修饰行的值—修饰行值——每个位置都用最具体的稳定标识符。概念比已有标识符更窄 / 更特殊时,概念比已有标识符更窄时,写一条 (修饰)[的](基础) 主 unit 引入派生 node。引入派生节点。

                对称适用于 unit 的所有位置:对称适用于所有位置:

                • 主体 / 论元值上:"入选微芯片" ≠ 微芯片,"DeepMind 提出的智能体" ≠ 智能体。

                  微芯片;
                • 谓词位上:"以独特方式深刻塑造" ≠ 塑造,塑造;"于 1997 年击败" ≠ 击败——这一条容易被忽略。

                  击败。

                典型操作 典型操作— 把一次性动作改写为持久的状态 / 需求需求:

                <S>[做]<P of O>        →    {O}[需要 / 具有]{P}
                                       +    bridge unit {S}[家族成员]{O 的需求 / 状态}
                

                bridge predicate 从 §三 桥接 family 中选最贴切的成员。动作是一次性的,状态 / 需求是领域级持久事实——需求是领域级持久事实;入口挂到这一层,下一篇同主题的新方法也能归到同一标识符上。新方法可归到同一标识符。bridge unit 仅在 S 从主 unit 里消失时才必要;消失时必要;S 在图里别处保留时(如 {DeepMind}[提出]{X})冗余。

                例:

                原文:DeepMind 提升了智能体在复杂环境中的学习效率
                抽取:{智能体}[需要提升]{学习效率}
                      ()[范围]{环境}
                      ()[程度](复杂)
                      # "复杂" 属 §二.2 b 类主观评价,挂修饰行
                      ()[证据]{DeepMind}
                

                III.III 嵌套修饰(对应思考操作:思考操作:推理)

                规则规则:modal / 意图 / 因果 / 条件 / 态度 / 引用 / 嵌入子句——一切对命题做的修饰或操作都装到外层 unit 的论元位,被嵌套的内层 unit 用段内局部 ID(u_aID / u_b / ……)引用。禁止用句法连词切碎为同层平行断言。

                意图链意图链(in order to thereby)——"从而" 在目的语境为未发生意图链,非因果结果;所有子目标共享一条 [目的是] 主 unit:

                原文:DeepMind 提出 X,旨在应对真实世界的复杂性,从而提升深度强化学习的性能
                
                {真实世界}[具有]{复杂性}                    # u_a
                {深度强化学习}[需要提升]{性能}              # u_b
                {X}[目的是]{u_a}, {u_b}
                ()[证据]{DeepMind}
                

                注意 "从而" 在目的语境里 = in order to thereby(未发生的意图链),不是因果结果(A 引起 B);前者所有子目标共享一条 [目的是] 主 unit,后者归入 "导致" family。

                因果链因果链——主体是因,论元是果:

                原文:真实世界规则不明确,使得在此类环境中进行想象耗时耗力
                
                {真实世界}[具有]{规则不明确性}              # u_a
                {在真实世界中进行想象}[具有]{耗时耗力特征}    # u_b
                {u_a}[导致]{u_b}
                

                主体是因,论元是果——读法 "u_a 导致 u_b"。

                模态 / 条件条件——模态 family 必须 / 应该 / 可能 直接修饰单条命题;条件关系用 必要条件 / 充分条件 二元谓词:

                原文:要让算法执行复杂行为,就必须使其具备对未来推理的能力
                
                {算法}[执行]{行为}                          # u_a  目标命题
                ()[程度](复杂)
                {算法}[具有]{对未来推理的能力}              # u_b  必需条件
                {u_b}[必要条件]{u_a}
                

                读法 "u_b 是 u_a 的必要条件"。模态 family 里的 必须 / 应该 / 可能 直接修饰单条命题({u_b}[必须]());条件关系更适合用 必要条件 / 充分条件 这种二元 predicate。

                命题态度命题态度——把宾语命题名词化或装入嵌套:

                原文:研究者认为该方法不可行
                
                {该方法}[具有]{不可行性}                    # u_a
                — 把"不可行"名词化为属性
                {研究者}[认为]{u_a}
                

                IV.IV 自洽(对应思考操作:思考操作:自洽)

                规则:图永远不能同时存在两条互相矛盾的规则:图永不能同时存在两条互相矛盾的 unit。

                操作操作:新 unit 入库前查 subject_mentions[新 unit.主体] 反查到的小集合;若主体重合 + 修饰行一致 + 谓词互为否定(通过 negates unit 查得),用 被取代 主 unit 把旧 unit 标为被取代,带时间戳。旧 unit 保留供审计;常态查询沿 ⇒ 链取末端。


                五、抽取流程(操作侧)§6 抽取流程

                抽取时按以下顺序处理一段原文:按以下顺序处理一段原文:

                1. 句法解析句法解析——识别小句、动词、论元、修饰、连词、辖域算子。

                2. 语言层预处理语言层预处理:

                  • 指代还原指代还原——人称代词、零指代("去了商店,买了苹果,很甜" → "[他]去了商店,[他]买了苹果,[苹果]很甜")都还原成具体 node。

                  • 特殊句式标准化

                    特殊句式标准化:
                    • 把字句 / 被字句:还原为被字句 → <施事>[谓词]<受事> 而非按表层语序。

                    • 兼语句

                      兼语句("老师让学生回答问题"):拆为致使→ 致使 unit + 嵌套子 unit。

                      unit;
                    • 连动句

                      连动句("他去图书馆借书"):拆为多条→ 多条 unit,按时序 / 目的连。

                      目的连;
                    • 是字句 / 有字句:用有字句 → 属于 / 具有 等静态谓词,不写成动作。

                      静态谓词;
                    • 比较句

                      比较句("A 比 B 高"):谓词 ∈ 比较 / 程度 family,修饰行带family + 修饰行 维度 / 参照

                  • 辖域识别:否定辖域识别——决定否定 / 量化 / 模态的辖域要在这里定下来——决定它是谓词自身的否定(用模态的辖域归属(谓词自身用 negates修饰行(修饰行用 量化 / 否定辖域还是嵌套外层(原则嵌套外层走 §5.III)

                  • 句类识别:陈述以外的句类(句类识别——非陈述句(疑问 / 祈使 / 感叹)通过命题态度 family wrapping(询问wrapping / 请求 / 评价)变成 unit;语气词的字面形式不输出。

                    语气词字面形式不输出。
                3. 复句拆分复句拆分——按因果 / 转折 / 时序 / 目的 / 条件 / 让步切分。

                4. 逐条 unitunit——选谓词(归 family 基础成员)定主体(≥1 个具体个具体节点)→ node)、补修饰行;同时满足四条原则。同时满足 §5 四原则。节点位置的 {}/() 标记由 LLM 在此步直接判断——按标记按 §二.2.2 的承载者原则 + 两个测试,对每个节点单独判断;不是事后用脚本批处理(脚本无法做语义判断)。测试逐节点判断。

                5. 入库:原则 入库——§5.IV 查冲突 → §7 索引自动更新。


                六、§7 查询

                1.7.1 反向索引(node节点 → unit)

                每个 node 是一个每个节点是一个 wiki 页面,按谓词 family 分组展示三块:

                索引 含义
                subject_mentions node节点 → [作为主体出现的 unit ID]
                context_mentions node节点 → [作为论元 / 修饰行值出现但不是主体的 unit ID]
                narrowed_by node节点 → [以它为基础的派生 node]以它为基础的派生节点](沿 主 unit 反查论元位)

                例:"1997 深蓝击败卡斯帕罗夫" → subject_mentions[深蓝] += 它,context_mentions[卡斯帕罗夫] += 它,context_mentions[1997] += 它(1997 在 ()[发生时间] 修饰行里)

                2.7.2 判断索引(高频)

                索引 含义 自动派生自
                两条 unit 等价 / 可互换 同义 主 unit
                相关但说不清逻辑关系 相关于unit(共现 + LLM 确认)unit
                后者取代前者 被取代 主 unit,带时间戳

                矛盾(⊥)不在这里——按原则 §5.IV 在入库时已被 ⇒ 消解。消解,不在此索引。

                3.7.3 查询操作

                操作 做法
                打开 node 页打开节点页 subject_mentions[X] 按谓词 family 分组 + narrowed_by[X] 列派生 node列派生节点
                继承推理 沿 属于 闭包传递;派生自 不参与——挂在派生 node 上的具体断言不会被推到原 node 上去派生不参与
                展开 family 谓词 ∈ family 基础成员 → 沿 同义 + 闭包找到所有变体闭包找所有变体 unit
                找因果链 谓词 ∈ "导致" family,沿 (因→果) 主体遍历
                谁主张了 X subject_mentions[X] ∩ 谓词 ∈ "主张" family
                追溯目的-手段 谓词 ∈ "目的是" family,沿论元里嵌套的子 unit 展开
                查事实出处 context_mentions[S] ∩ 谓词 = 证据
                整合新 unit 主体反查邻居 → LLM 判 ≡ / ↔ / 冲突;冲突走原则冲突走 §5.IV
                取最新事实 沿 ⇒ 链取末端,跳过被取代的旧 unit

                入库时的语义判断已固化到谓词 / 修饰行里。所有查询是图遍历,无在线 LLM 调用。


                七、trade-§8 Trade-off

                  取舍 内容

                  接受语言表达层信息损失 焦点 / 主题前置、口吻、句末语气词、被动主动这类表层语序不输出。被动主动等表层语序不输出;认知内容由命题态度 family 和修饰行承载。与修饰行承载

                  接受叙述外壳信息损失:原则 §5.I 默认把"谁说的默认把 /"谁说的" 谁提出的"压成 ()[证据],归属在大多数情况下不是首要事实。如果场景里归属是关注点(。归属是关注点时(学术优先权、争议引述),需要手动把它升回主须手动升回主 unit。unit

                  入库依赖 LLM 的语言理解

                  指代消解、特殊句式标准化、辖域识别、谓词 family 归并、事实层 vs. 叙述外壳的判别都需要叙述外壳判别均需 LLM。LLM;常态查询不再需要 LLM。

                  等价 / 矛盾判定靠 LLM pairwise,不靠形式逻辑求解。

                  不靠形式逻辑求解

                  不做严格形式推理 目标是组织和检索 unit,不是定理证明。如需可叠加形式化命题层。不是定理证明;如需可叠加形式化命题层

                  入库代价高于 RAG 一次入库换长期可推理,常态使用不再付 LLM 成本。成本