# LLM大语言模型的训练

### 预训练

1\.

### 继续预训练

### 微调

1. 全面微调更容易出现两个问题：模型崩溃和灾难性遗忘
2. PEFT技术本质上，是作为微调的自然正则化器
3. 数据集的质量和筛选，对微调的成功起着重要作用：一个大趋势是质量比数量更重要，拥有一小部分高质量的数据，比拥有一大批低质量的数据更好。
    1. 一致的注释，没有错误、没有错误标签的数据、有噪音的输入/输出
    2. 与总体相比具有代表性的分布
4. 微调是大模型开发中的一个关键方面，需要在艺术和科学之间取得微妙的平衡。

[![image.png](https://agix.host/uploads/images/gallery/2026-04/xrlimage.png)](LLM大语言模型的训练/XrLimage.png)

### 强化学习-DeepSeek-R1

1. 通过约束生成的内容和方式
    1. 通过问答的和逻辑分析的形式来约束模型的学习/训练/优化
    2. 使用自然语言作为接口，使得这个方式成为可能
    3. 引导模型使用更动态的方式（逻辑思维链）进行学习