Skip to main content

LLM大语言模型的困难

精度

预训练

继续预训练

微调

  1. 处理代表性不足的领域,尽管LLM接受了大量通用数据的训练,但它们可能并不总是精通每一个特定领域的细微差别的行话、术语或具体情况--表达的效率
    1. Phi-2对金融数据情绪分析准确率,从34%提高到85%。
    2. 仅用100个示例,ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。
    3. 但是情绪分析是一个比较通用的基础能力,预训练已经有较好的表达
    4. 这个任务就像mnist数据集到90%以上很容易,但是要到100%很难
  2. 全面微调更容易出现两个问题:模型崩溃和灾难性遗忘。