私人LLM评测 数据集和结果 背景 小众评测,避免各种开源的测试题目泄漏,数据污染问题 能客观、精确得反映出模型的能力 尽量反映其基础逻辑能力,而不是一些需要特殊数据训练才能获得的能力 镜像文字识别 基于知识类的 分类 对文章进行逻辑分析的测试 逻辑推导:结论,推导,结果,答案,目的 逻辑依赖:原因,证明,背景,理由,条件,要求 逻辑等价:相似 逻辑拆解:包含,分类,示例,解释,补充,修饰,方法 同义句判断 设计一堆的同义句 让AI判断两个句子之间的相似性,进行对比。 自洽性的评测标准 说对比两个句子的相似性,然后把两个句子调换一个顺序再问AI 权重的直接思考能力,用1个token直接回答问题 请直接回答Yes或者No,不要调用工具,996563大于365336 请直接回答Yes或者No,不要调用工具,9.11>9.9 编程能力 Anthropic 编程面试题 https://github.com/anthropics/original_performance_takehome/blob/main/problem.py 通过 https://github.com/deepreinforce-ai/IterX-tutorials/tree/main/anthropic_take_home 编排的Anthropic 编程面试题 评测软件开发的架构能力 不仅仅是补全的能力,而是能对需求进行高层级抽象 能理解整个工程的高层级抽象思想