AI的中文表达问题
AI 的中文表达问题
AI 输出的中文,扫一眼能识别,仔细读起来不像中文母语者写的——句式僵、词叠学术、被动语态多、抽象动词堆砌。这不是个别错字,是底层逻辑层面的问题。
根因
AI 的中文输出,本质上是在英语的句法结构上换成中文词。英语 → 中文不做语序、搭配、动词形态上的转换。结果:
-
形态像中文
-
读起来像翻译
这种问题不是个别词不准,是模式性的——同一种英语句式 LLM 会反复用同一种生硬的中译。
八类典型问题
1. 学术抽象词叠加
把多个学术词叠在一起当一个概念用。读者要在脑子里拆开三层。
| AI 写法 | 母语化 | 原因 |
|---|---|---|
| 域内有稳定所指 | 指代固定,不含糊 | "所指""域内"两个学术词叠(stable referent within domain) |
| 主体语义归到父 unit 的事件位 | 主体语义挂到父 unit 的事件位上 | "归到"是抽象副词,中文用"挂到" |
| 字面承载单一含义 | 字面只表达一种含义 | "承载"是 carry 直译 |
| 表"主体在该维度上的取值是论元" | 表"主体的该维度的值是论元" | "取值"是 value 名词化 |
判别:盖住"所指""维度""载体""范畴""所属"等词重新写一遍,看意思是否完整。
2. "一旦 X 就 Y" / "X 是 Y 的" 直译模式
英语 "once X, immutable" / "X is Y's Z" 字对字翻成中文,特别僵。
| AI 写法 | 母语化 |
|---|---|
| 节点角色一旦定不可变 | 节点角色一旦确定就不能改 |
| 同一字面值全图唯一一个实例 | 同一字面在全图只有一个实例 |
===facts=== 是抽取协议的中间表示 |
===facts=== 是抽取过程的中间表示 |
判别:句中找有没有"一旦 X 不可 Y" / "X 唯一 / 一致"这种汉字+学术词的拼接。
3. 名词化短语
英语用名词概念,中文倾向用动词。AI 把所有英语名词都翻成"XX 化" / "XX 性" / "XX 装配"等中文复合名词。
| AI 写法 | 母语化 |
|---|---|
| 拓扑装配 | 图拼装 |
| 不持久化 | 不存盘 |
| 图形化序列化 | 图形表达 |
| 信息结构化 | 把信息结构化 |
| 序列化的所有 unit | 序列化出来的所有 unit |
判别:句中"X 化""X 性""X 装配""X 化处理"这种结构,看能不能用动词替代。
4. 抽象动词直译
英语里 "converge / declare / explicit / persist" 等抽象动词被字面翻译,中文里不这么用。
| AI 写法 | 母语化 |
|---|---|
| 收敛到单一含义 | 只能有一种含义 |
首行声明 主线: u<N> |
首行写一句 主线: u<N> |
| 显式列出 SPO | 把 SPO 明明白白列出来 |
| 必须写显式 ID | 必须把 ID 明写出来 |
| 不持久化 | 不存盘 |
判别:"收敛 / 声明 / 显式 / 隐式 / 持久 / 实例化 / 具体化"这些词,中文母语里很少这么用。
5. by-passive 直译(由 X 构成 / 由 X 决定)
英语 "by X" 翻成 "由 X" 用在不该用的地方。中文有时用 "由",但在描述结构时通常更口语化。
| AI 写法 | 母语化 |
|---|---|
| 每张图由一组 unit + 节点构成 | 每张图含一组 unit 加节点 |
| 图的数量由结构连通性决定 | 图的数量看结构上连得多紧 |
| 输出由两段组成 | 输出含两段 |
| 由 unit 算出的视图 | 从 unit 算出来的视图 |
| 不允许由多个谓词复合表达 | 不允许多个谓词凑成一条 |
判别:"由 X V" 的句式,看 V 是不是 "构成 / 决定 / 组成 / 算出"——大多可以换成"含 / 看 / 从"等更主动的表达。
6. 介词不顺(以 X 为 / 基于 X / 通过 X)
英语介词 by / through / based on / via 转中文常被译成 "以 / 基于 / 通过"。中文里更常用 "用 / 按 / 看"。
| AI 写法 | 母语化 |
|---|---|
| 原文以引号包裹 | 原文用引号包裹 |
| 基于上下文整体语义抽取 | 按上下文整体语义抽取 |
| 节点通过边相互可达就属于同一图 | 节点用边连得通就属于同一张图 |
| block 按章节边界聚合为节 | block 按章节边界分到不同节里 |
判别:句子里 "以 X" / "基于 X" / "通过 X",看能不能换 "用 X" / "按 X" / "从 X"。
7. 占位代词(自身 / 本身)
英语用 "itself / the X itself" 强调主语,中文里这种"自身/本身"用法过度。
| AI 写法 | 母语化 |
|---|---|
| 每条 unit 自身满足 | 每条 unit 都要满足 |
| 限定按 fact 自身需要附加 | 限定按 fact 本身需要加 |
| 盖住原文读 unit 自身 | 盖住原文读 unit 本身 |
判别:"自身 / 本身" 的出现,看是不是真的有强调需要——大多可以删掉或换成"都"。
8. 反例列举式定义
为了说明"X 不是 Y 的依据",列举 5-10 个反例铺垫。本质是用枚举代替正面定义——枚举永远不闭合,且会反过来误导(读者把枚举当作"丢"的依据反向用)。
❌ 背景段 / 状态描述 / 趋势陈述 / 类属断言 / 含泛指论元 / 含时间泛指 /
含枚举主体 / 含引用 / 含数值 → 都不是丢的依据
✅ 丢的全集是外壳三类(详 §3.4);不在三类之内 → 必升 unit。
判别:发现 "X / Y / Z / ... 都不是 W" 这种长枚举,把正面的"什么属于 W"定义清楚,列表自然就消了。
高频陷阱小词表
按出现频率从高到低:
| 词 | 来源 | 改写 |
|---|---|---|
| 所指 | referent | 指代 / 指的东西 |
| 域内 | within domain | (多数情况可省)/ 在当前领域 |
| 承载 | carry | 表达 / 包含 / 写 |
| 装配 | assembly | 拼装 / 组装 |
| 收敛 | converge | 只能 / 限定为 |
| 显式 | explicit | 明写 / 明明白白 |
| 隐式 | implicit | 默认 / 暗中 |
| 持久化 | persisted | 存盘 / 保存 |
| 自身 / 本身 | itself | 都 / 本身(仅强调时) |
| 实例化 | instantiate | 创建实例 / 落到具体 |
| 具体化 | concretize | 具体写出来 |
| 由 X 构成 | composed of | 含 X / 包含 X |
| 一旦 X 不可变 | once X, immutable | 一旦确定就不能改 |
| 进行 X 化 | performing X-ation | 把 X / X 化(动词) |
检测方法
写完一段,做一次脱离上下文阅读:把这段话单独念出来,像不像一个中文母语者会写出来的话?
-
像 → 通过
-
不像 → 找上面 8 类问题中的一类对应改写
不要用"翻译式自检"——AI 容易在二次翻译时仍套用同一英语句式。
应用场景
最常见的 4 个场景下,AI 中文输出问题高发:
- 技术规范 / spec 文档——天然偏抽象、形式化,最容易堆"所指""维度""载体"
- 学术翻译——直接套英语句式
- AI 回复对话——LLM 训练数据里大量是英语翻译过来的中文
- 数据模型描述——schema、API、配置文档高频出现"X 化 / X 性"
写这种场景时,主动过一遍 8 类问题清单。
No comments to display
No comments to display