私人LLM评测 数据集和结果
背景
- 小众评测,避免各种开源的测试题目泄漏
- 能客观、精确得反映出模型的能力
- 尽量反映其基础逻辑能力,而不是一些需要特殊数据训练才能获得的能力
- 镜像文字识别
- 基于知识类的
- 对文章进行逻辑分析的测试
- 逻辑推导:结论,推导,结果,答案,目的
- 逻辑依赖:原因,证明,背景,理由,条件,要求
- 逻辑等价:相似
- 逻辑拆解:包含,分类,示例,解释,补充,修饰,方法
- 同义句判断
- 设计一堆的同义句
- 让AI判断两个句子之间的相似性,进行对比。
- 自洽性的评测标准
- 说对比两个句子的相似性,然后把两个句子调换一个顺序再问AI
No comments to display
No comments to display