AI的中文表达问题 AI 的中文表达问题 AI 输出的中文,扫一眼能识别,仔细读起来不像中文母语者写的——句式僵、词叠学术、被动语态多、抽象动词堆砌。这不是个别错字,是底层逻辑层面的问题。 根因 AI 的中文输出,本质上是在英语的句法结构上换成中文词。英语 → 中文不做语序、搭配、动词形态上的转换。结果: 形态像中文 读起来像翻译 这种问题不是个别词不准,是 模式性的 ——同一种英语句式 LLM 会反复用同一种生硬的中译。 八类典型问题 1. 学术抽象词叠加 把多个学术词叠在一起当一个概念用。读者要在脑子里拆开三层。 AI 写法 母语化 原因 域内有稳定所指 指代固定,不含糊 "所指""域内"两个学术词叠(stable referent within domain) 主体语义归到父 unit 的事件位 主体语义挂到父 unit 的事件位上 "归到"是抽象副词,中文用"挂到" 字面承载单一含义 字面只表达一种含义 "承载"是 carry 直译 表"主体在该维度上的取值是论元" 表"主体的该维度的值是论元" "取值"是 value 名词化 判别:盖住"所指""维度""载体""范畴""所属"等词重新写一遍,看意思是否完整。 2. "一旦 X 就 Y" / "X 是 Y 的" 直译模式 英语 "once X, immutable" / "X is Y's Z" 字对字翻成中文,特别僵。 AI 写法 母语化 节点角色一旦定不可变 节点角色一旦确定就不能改 同一字面值全图唯一一个实例 同一字面在全图只有一个实例 ===facts=== 是抽取协议的中间表示 ===facts=== 是抽取过程的中间表示 判别:句中找有没有"一旦 X 不可 Y" / "X 唯一 / 一致"这种汉字+学术词的拼接。 3. 名词化短语 英语用名词概念,中文倾向用动词。AI 把所有英语名词都翻成"XX 化" / "XX 性" / "XX 装配"等中文复合名词。 AI 写法 母语化 拓扑装配 图拼装 不持久化 不存盘 图形化序列化 图形表达 信息结构化 把信息结构化 序列化的所有 unit 序列化出来的所有 unit 判别:句中"X 化""X 性""X 装配""X 化处理"这种结构,看能不能用动词替代。 4. 抽象动词直译 英语里 "converge / declare / explicit / persist" 等抽象动词被字面翻译,中文里不这么用。 AI 写法 母语化 收敛到单一含义 只能有一种含义 首行声明 主线: u 首行写一句 主线: u 显式列出 SPO 把 SPO 明明白白列出来 必须写显式 ID 必须把 ID 明写出来 不持久化 不存盘 判别:"收敛 / 声明 / 显式 / 隐式 / 持久 / 实例化 / 具体化"这些词,中文母语里很少这么用。 5. by-passive 直译(由 X 构成 / 由 X 决定) 英语 "by X" 翻成 "由 X" 用在不该用的地方。中文有时用 "由",但在描述结构时通常更口语化。 AI 写法 母语化 每张图由一组 unit + 节点构成 每张图含一组 unit 加节点 图的数量由结构连通性决定 图的数量看结构上连得多紧 输出由两段组成 输出含两段 由 unit 算出的视图 从 unit 算出来的视图 不允许由多个谓词复合表达 不允许多个谓词凑成一条 判别:"由 X V" 的句式,看 V 是不是 "构成 / 决定 / 组成 / 算出"——大多可以换成"含 / 看 / 从"等更主动的表达。 6. 介词不顺(以 X 为 / 基于 X / 通过 X) 英语介词 by / through / based on / via 转中文常被译成 "以 / 基于 / 通过"。中文里更常用 "用 / 按 / 看"。 AI 写法 母语化 原文以引号包裹 原文用引号包裹 基于上下文整体语义抽取 按上下文整体语义抽取 节点通过边相互可达就属于同一图 节点用边连得通就属于同一张图 block 按章节边界聚合为节 block 按章节边界分到不同节里 判别:句子里 "以 X" / "基于 X" / "通过 X",看能不能换 "用 X" / "按 X" / "从 X"。 7. 占位代词(自身 / 本身) 英语用 "itself / the X itself" 强调主语,中文里这种"自身/本身"用法过度。 AI 写法 母语化 每条 unit 自身满足 每条 unit 都要满足 限定按 fact 自身需要附加 限定按 fact 本身需要加 盖住原文读 unit 自身 盖住原文读 unit 本身 判别:"自身 / 本身" 的出现,看是不是真的有强调需要——大多可以删掉或换成"都"。 8. 反例列举式定义 为了说明"X 不是 Y 的依据",列举 5-10 个反例铺垫。本质是用枚举代替正面定义——枚举永远不闭合,且会反过来误导(读者把枚举当作"丢"的依据反向用)。 ❌ 背景段 / 状态描述 / 趋势陈述 / 类属断言 / 含泛指论元 / 含时间泛指 / 含枚举主体 / 含引用 / 含数值 → 都不是丢的依据 ✅ 丢的全集是外壳三类(详 §3.4);不在三类之内 → 必升 unit。 判别:发现 "X / Y / Z / ... 都不是 W" 这种长枚举,把正面的"什么属于 W"定义清楚,列表自然就消了。 高频陷阱小词表 按出现频率从高到低: 词 来源 改写 所指 referent 指代 / 指的东西 域内 within domain (多数情况可省)/ 在当前领域 承载 carry 表达 / 包含 / 写 装配 assembly 拼装 / 组装 收敛 converge 只能 / 限定为 显式 explicit 明写 / 明明白白 隐式 implicit 默认 / 暗中 持久化 persisted 存盘 / 保存 自身 / 本身 itself 都 / 本身(仅强调时) 实例化 instantiate 创建实例 / 落到具体 具体化 concretize 具体写出来 由 X 构成 composed of 含 X / 包含 X 一旦 X 不可变 once X, immutable 一旦确定就不能改 进行 X 化 performing X-ation 把 X / X 化(动词) 检测方法 写完一段,做一次脱离上下文阅读:把这段话单独念出来, 像不像一个中文母语者会写出来的话 ? 像 → 通过 不像 → 找上面 8 类问题中的一类对应改写 不要用"翻译式自检"——AI 容易在二次翻译时仍套用同一英语句式。 应用场景 最常见的 4 个场景下,AI 中文输出问题高发: 技术规范 / spec 文档 ——天然偏抽象、形式化,最容易堆"所指""维度""载体" 学术翻译 ——直接套英语句式 AI 回复对话 ——LLM 训练数据里大量是英语翻译过来的中文 数据模型描述 ——schema、API、配置文档高频出现"X 化 / X 性" 写这种场景时,主动过一遍 8 类问题清单。