私人LLM评测数据集和结果

背景

小众评测，避免各种开源的测试题目泄漏
能客观、精确得反映出模型的能力
尽量反映其基础逻辑能力，而不是一些需要特殊数据训练才能获得的能力
1. 镜像文字识别
2. 基于知识类的

对文章进行逻辑分析的测试
1. 逻辑推导：结论,推导,结果,答案,目的
2. 逻辑依赖：原因,证明,背景,理由,条件,要求
3. 逻辑等价：相似
4. 逻辑拆解：包含,分类,示例,解释,补充,修饰,方法
同义句判断
1. 设计一堆的同义句
2. 让AI判断两个句子之间的相似性，进行对比。
自洽性的评测标准
1. 说对比两个句子的相似性，然后把两个句子调换一个顺序再问AI

No comments to display

Back to top