LLM大语言模型的困难

精度

预训练

继续预训练

微调

处理代表性不足的领域，尽管LLM接受了大量通用数据的训练，但它们可能并不总是精通每一个特定领域的细微差别的行话、术语或具体情况--表达的效率
1. Phi-2对金融数据情绪分析准确率，从34%提高到85%。
2. 仅用100个示例，ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。
3. 但是情绪分析是一个比较通用的基础能力，预训练已经有较好的表达
4. 这个任务就像mnist数据集到90%以上很容易，但是要到100%很难
全面微调更容易出现两个问题：模型崩溃和灾难性遗忘。

Back to top