私人LLM评测数据集和结果

背景

小众评测，避免各种开源的测试题目泄漏
能客观、精确得反映出模型的能力

尽量反映其基础逻辑能力，而不是一些需要特殊数据训练才能获得的能力

镜像文字识别基于知识类的

对文章进行逻辑分析的测试
1. 逻辑推导：结论,推导,结果,答案,目的
2. 逻辑依赖：原因,证明,背景,理由,条件,要求
3. 逻辑等价：相似
4. 逻辑拆解：包含,分类,示例,解释,补充,修饰,方法
同义句判断
1. 设计一堆的同义句
2. 让AI判断两个句子之间的相似性，进行对比。
自洽性的评测标准
1. 说对比两个句子的相似性，然后把两个句子调换一个顺序再问AI

Back to top