Skip to main content
AGIX
View All
Search
Books
Log in
Info
Content
私人LLM评测 数据集和结果
Page Revisions
Revision #2343
私人LLM评测 数据集和结果
小众评测,避免各种开源的测试题目泄漏
对文章进行逻辑分析的测试
逻辑推导:结论,推导,结果,答案,目的
逻辑依赖:原因,证明,背景,理由,条件,要求
逻辑等价:相似
逻辑拆解:包含,分类,示例,解释,补充,修饰,方法
同义句判断
设计一堆的同义句
让AI判断两个句子之间的相似性,进行对比。
自洽性的评测标准
说对比两个句子的相似性,然后把两个句子调换一个顺序再问AI
Back to top