LLM大语言模型的困难
精度
预训练
继续预训练
微调
- 处理代表性不足的领域,尽管LLM接受了大量通用数据的训练,但它们可能并不总是精通每一个特定领域的细微差别的行话、术语或具体情况--表达的效率
- Phi-2对金融数据情绪分析准确率,从34%提高到85%。
- 仅用100个示例,ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。
- 但是情绪分析是一个比较通用的基础能力,预训练已经有较好的表达
- 这个任务就像mnist数据集到90%以上很容易,但是要到100%很难
- 全面微调更容易出现两个问题:模型崩溃和灾难性遗忘。