# AI的中文表达问题

# AI 的中文表达问题

<br />

AI 输出的中文，扫一眼能识别，仔细读起来不像中文母语者写的——句式僵、词叠学术、被动语态多、抽象动词堆砌。这不是个别错字，是底层逻辑层面的问题。

## 根因

AI 的中文输出，本质上是在英语的句法结构上换成中文词。英语 → 中文不做语序、搭配、动词形态上的转换。结果：

* 形态像中文

* 读起来像翻译

这种问题不是个别词不准，是**模式性的**——同一种英语句式 LLM 会反复用同一种生硬的中译。

## 八类典型问题

### 1. 学术抽象词叠加

把多个学术词叠在一起当一个概念用。读者要在脑子里拆开三层。

| AI 写法 | 母语化 | 原因 |
| - | - | - |
| 域内有稳定所指 | 指代固定，不含糊 | "所指""域内"两个学术词叠（stable referent within domain） |
| 主体语义归到父 unit 的事件位 | 主体语义挂到父 unit 的事件位上 | "归到"是抽象副词，中文用"挂到" |
| 字面承载单一含义 | 字面只表达一种含义 | "承载"是 carry 直译 |
| 表"主体在该维度上的取值是论元" | 表"主体的该维度的值是论元" | "取值"是 value 名词化 |

判别：盖住"所指""维度""载体""范畴""所属"等词重新写一遍，看意思是否完整。

### 2. "一旦 X 就 Y" / "X 是 Y 的" 直译模式

英语 "once X, immutable" / "X is Y's Z" 字对字翻成中文，特别僵。

| AI 写法 | 母语化 |
| - | - |
| 节点角色一旦定不可变 | 节点角色一旦确定就不能改 |
| 同一字面值全图唯一一个实例 | 同一字面在全图只有一个实例 |
| `===facts===` 是抽取协议的中间表示 | `===facts===` 是抽取过程的中间表示 |

判别：句中找有没有"一旦 X 不可 Y" / "X 唯一 / 一致"这种汉字+学术词的拼接。

### 3. 名词化短语

英语用名词概念，中文倾向用动词。AI 把所有英语名词都翻成"XX 化" / "XX 性" / "XX 装配"等中文复合名词。

| AI 写法 | 母语化 |
| - | - |
| 拓扑装配 | 图拼装 |
| 不持久化 | 不存盘 |
| 图形化序列化 | 图形表达 |
| 信息结构化 | 把信息结构化 |
| 序列化的所有 unit | 序列化出来的所有 unit |

判别：句中"X 化""X 性""X 装配""X 化处理"这种结构，看能不能用动词替代。

### 4. 抽象动词直译

英语里 "converge / declare / explicit / persist" 等抽象动词被字面翻译，中文里不这么用。

| AI 写法 | 母语化 |
| - | - |
| 收敛到单一含义 | 只能有一种含义 |
| 首行声明 `主线: u<N>` | 首行写一句 `主线: u<N>` |
| 显式列出 SPO | 把 SPO 明明白白列出来 |
| 必须写显式 ID | 必须把 ID 明写出来 |
| 不持久化 | 不存盘 |

判别："收敛 / 声明 / 显式 / 隐式 / 持久 / 实例化 / 具体化"这些词，中文母语里很少这么用。

### 5. by-passive 直译（由 X 构成 / 由 X 决定）

英语 "by X" 翻成 "由 X" 用在不该用的地方。中文有时用 "由"，但在描述结构时通常更口语化。

| AI 写法 | 母语化 |
| - | - |
| 每张图由一组 unit + 节点构成 | 每张图含一组 unit 加节点 |
| 图的数量由结构连通性决定 | 图的数量看结构上连得多紧 |
| 输出由两段组成 | 输出含两段 |
| 由 unit 算出的视图 | 从 unit 算出来的视图 |
| 不允许由多个谓词复合表达 | 不允许多个谓词凑成一条 |

判别："由 X V" 的句式，看 V 是不是 "构成 / 决定 / 组成 / 算出"——大多可以换成"含 / 看 / 从"等更主动的表达。

### 6. 介词不顺（以 X 为 / 基于 X / 通过 X）

英语介词 by / through / based on / via 转中文常被译成 "以 / 基于 / 通过"。中文里更常用 "用 / 按 / 看"。

| AI 写法 | 母语化 |
| - | - |
| 原文以引号包裹 | 原文用引号包裹 |
| 基于上下文整体语义抽取 | 按上下文整体语义抽取 |
| 节点通过边相互可达就属于同一图 | 节点用边连得通就属于同一张图 |
| block 按章节边界聚合为节 | block 按章节边界分到不同节里 |

判别：句子里 "以 X" / "基于 X" / "通过 X"，看能不能换 "用 X" / "按 X" / "从 X"。

### 7. 占位代词（自身 / 本身）

英语用 "itself / the X itself" 强调主语，中文里这种"自身/本身"用法过度。

| AI 写法 | 母语化 |
| - | - |
| 每条 unit 自身满足 | 每条 unit 都要满足 |
| 限定按 fact 自身需要附加 | 限定按 fact 本身需要加 |
| 盖住原文读 unit 自身 | 盖住原文读 unit 本身 |

判别："自身 / 本身" 的出现，看是不是真的有强调需要——大多可以删掉或换成"都"。

### 8. 反例列举式定义

为了说明"X 不是 Y 的依据"，列举 5-10 个反例铺垫。本质是用枚举代替正面定义——枚举永远不闭合，且会反过来误导（读者把枚举当作"丢"的依据反向用）。

```
❌ 背景段 / 状态描述 / 趋势陈述 / 类属断言 / 含泛指论元 / 含时间泛指 /
   含枚举主体 / 含引用 / 含数值 → 都不是丢的依据

✅ 丢的全集是外壳三类（详 §3.4）；不在三类之内 → 必升 unit。
```

判别：发现 "X / Y / Z / ... 都不是 W" 这种长枚举，把正面的"什么属于 W"定义清楚，列表自然就消了。

## 高频陷阱小词表

按出现频率从高到低：

| 词 | 来源 | 改写 |
| - | - | - |
| 所指 | referent | 指代 / 指的东西 |
| 域内 | within domain | （多数情况可省）/ 在当前领域 |
| 承载 | carry | 表达 / 包含 / 写 |
| 装配 | assembly | 拼装 / 组装 |
| 收敛 | converge | 只能 / 限定为 |
| 显式 | explicit | 明写 / 明明白白 |
| 隐式 | implicit | 默认 / 暗中 |
| 持久化 | persisted | 存盘 / 保存 |
| 自身 / 本身 | itself | 都 / 本身（仅强调时） |
| 实例化 | instantiate | 创建实例 / 落到具体 |
| 具体化 | concretize | 具体写出来 |
| 由 X 构成 | composed of | 含 X / 包含 X |
| 一旦 X 不可变 | once X, immutable | 一旦确定就不能改 |
| 进行 X 化 | performing X-ation | 把 X / X 化（动词） |

## 检测方法

写完一段，做一次脱离上下文阅读：把这段话单独念出来，**像不像一个中文母语者会写出来的话**？

* 像 → 通过

* 不像 → 找上面 8 类问题中的一类对应改写

不要用"翻译式自检"——AI 容易在二次翻译时仍套用同一英语句式。

## 应用场景

最常见的 4 个场景下，AI 中文输出问题高发：

1. **技术规范 / spec 文档**——天然偏抽象、形式化，最容易堆"所指""维度""载体"
2. **学术翻译**——直接套英语句式
3. **AI 回复对话**——LLM 训练数据里大量是英语翻译过来的中文
4. **数据模型描述**——schema、API、配置文档高频出现"X 化 / X 性"

写这种场景时，主动过一遍 8 类问题清单。