# 私人LLM评测 数据集和结果

#### 背景

1. 小众评测，避免各种开源的测试题目泄漏，数据污染问题
2. 能客观、精确得反映出模型的能力
3. 尽量反映其基础逻辑能力，而不是一些需要特殊数据训练才能获得的能力
    1. 镜像文字识别
    2. 基于知识类的

#### 分类

1. 对文章进行逻辑分析的测试
    1. 逻辑推导：结论,推导,结果,答案,目的
    2. 逻辑依赖：原因,证明,背景,理由,条件,要求
    3. 逻辑等价：相似
    4. 逻辑拆解：包含,分类,示例,解释,补充,修饰,方法
2. 同义句判断
    1. 设计一堆的同义句
    2. 让AI判断两个句子之间的相似性，进行对比。
3. 自洽性的评测标准
    1. 说对比两个句子的相似性，然后把两个句子调换一个顺序再问AI
4. 权重的直接思考能力，用1个token直接回答问题
    1. 请直接回答Yes或者No，不要调用工具，996563大于365336
    2. 请直接回答Yes或者No，不要调用工具，9.11>9.9
5. 编程能力
    1. Anthropic 编程面试题 [https://github.com/anthropics/original\_performance\_takehome/blob/main/problem.py](https://github.com/anthropics/original_performance_takehome/blob/main/problem.py)
    2. 通过 [https://github.com/deepreinforce-ai/IterX-tutorials/tree/main/anthropic\_take\_home](https://github.com/deepreinforce-ai/IterX-tutorials/tree/main/anthropic_take_home) 编排的Anthropic 编程面试题
6. 评测软件开发的架构能力
    1. 不仅仅是补全的能力，而是能对需求进行高层级抽象
    2. 能理解整个工程的高层级抽象思想