私人LLM评测数据集和结果

背景

小众评测，避免各种开源的测试题目泄漏，数据污染问题
能客观、精确得反映出模型的能力
尽量反映其基础逻辑能力，而不是一些需要特殊数据训练才能获得的能力
1. 镜像文字识别
2. 基于知识类的

分类

对文章进行逻辑分析的测试
1. 逻辑推导：结论,推导,结果,答案,目的
2. 逻辑依赖：原因,证明,背景,理由,条件,要求
3. 逻辑等价：相似
4. 逻辑拆解：包含,分类,示例,解释,补充,修饰,方法
同义句判断
1. 设计一堆的同义句
2. 让AI判断两个句子之间的相似性，进行对比。
自洽性的评测标准
1. 说对比两个句子的相似性，然后把两个句子调换一个顺序再问AI
权重的直接思考能力，用1个token直接回答问题
1. 请直接回答Yes或者No，不要调用工具，996563大于365336
2. 请直接回答Yes或者No，不要调用工具，9.11>9.9
编程能力
1. Anthropic 编程面试题 https://github.com/anthropics/original_performance_takehome/blob/main/problem.py
2. 通过 https://github.com/deepreinforce-ai/IterX-tutorials/tree/main/anthropic_take_home 编排的Anthropic 编程面试题
评测软件开发的架构能力
1. 不仅仅是补全的能力，而是能对需求进行高层级抽象
2. 能理解整个工程的高层级抽象思想

No comments to display

Back to top

Transformer

KV Cache

ChatGLM3典型计算图

Tokenization

Transformer in CV

Attention是不是必须的

改进大规模训练稀疏自编码器的方法

Transformer NLP到底有没有智能？

LLM大语言模型的训练

Transformer黑盒

NSA 稀疏注意力机制 by deepseek

FlashAttention

MLA by Deekseek

幻觉

LLM信息空间的映射

LLM推理行为

梯度下降-拟合高层次的信息

信息压缩-封装算力-技术共识

生物脑（人脑）的优势

意识（自我）

人脑的工作原理

仿真人脑的基本条件

人脑的推理模型

人脑的本能

CoT & 强化学习

分层LLM推理与Scaling思维模板

自然语言的内在逻辑

RAG

记忆方法学

思维编织器 WeaveMind

记忆对于LLM的意义

人类记忆

大脑记忆的核心机制

现代汉语：语法解析

现在汉语：语法结构对SVO表示的挑战

Meaning Dataset 详细介绍文档

附带meaning tree信息的数据集

AI突破的可能

计算模型

自洽后就有意识了吗？

动态算法

短期记忆和长期记忆

私人LLM评测 数据集和结果

卷积计算的测试

复杂工程的实践测试

一种理想的智能体编排架构

理想架构-Harness12对照分析

基于关键词的知识图

Agent Harness 解剖：生产级智能体外壳的 12 个组件

Agentic Engineering 智能体编排

通用Agent的发展

SMO手册

SMO指令

SVO表达指令

SVO语义检索的系统化方案

SVO语义矢量算子手册

私人LLM评测 数据集和结果

背景

分类

私人LLM评测数据集和结果

私人LLM评测数据集和结果