私人LLM评测 数据集和结果

背景 
 
 小众评测，避免各种开源的测试题目泄漏，数据污染问题 
 能客观、精确得反映出模型的能力 
 尽量反映其基础逻辑能力，而不是一些需要特殊数据训练才能获得的能力
 
 镜像文字识别 
 基于知识类的 
 
 
 
 分类 
 
 对文章进行逻辑分析的测试
 
 逻辑推导：结论,推导,结果,答案,目的 
 逻辑依赖：原因,证明,背景,理由,条件,要求 
 逻辑等价：相似 
 逻辑拆解：包含,分类,示例,解释,补充,修饰,方法 
 
 
 同义句判断
 
 设计一堆的同义句 
 让AI判断两个句子之间的相似性，进行对比。 
 
 
 自洽性的评测标准
 
 说对比两个句子的相似性，然后把两个句子调换一个顺序再问AI 
 
 
 权重的直接思考能力，用1个token直接回答问题
 
 请直接回答Yes或者No，不要调用工具，996563大于365336 
 请直接回答Yes或者No，不要调用工具，9.11>9.9 
 
 
 编程能力
 
 Anthropic 编程面试题 https://github.com/anthropics/original_performance_takehome/blob/main/problem.py 
 通过 https://github.com/deepreinforce-ai/IterX-tutorials/tree/main/anthropic_take_home 编排的Anthropic 编程面试题 
 
 
 评测软件开发的架构能力
 
 不仅仅是补全的能力，而是能对需求进行高层级抽象 
 能理解整个工程的高层级抽象思想