目录
这里是 【C-Eval 大语言模型评测基准- 用 LM Evaluation Harness + vLLM 跑起来】 的笔记哈。
C-Eval 的基本介绍
- C-Eval 是一个「知识评估基准」,参考国外的评测基准 MMLU 而来,发布于 2023 年 5 月 22 日
- 和 MMLU 一样,C-Eval 都是客观题评测,所有都是单项选择题,每个题目 ABCD 四个选项,有唯一答案
- C-Eval 涵盖了 52 个不同学科,一共 13948 个题目,难度级别覆盖初中、高中、大学和职业考试
- 52 个学科,每个学科拆分为三个数据集:dev、validation 和 test。每个科目的 dev 集包含五个示范实例以及为 chain of thought 格式提供的解释;validation 数据集主要是用于超参数评估,它给了问题的答案;而 test 集则用于模型评估。test 集上的答案不公开,需要用户提交其结果到官方网站才能获取测试结果。
题目来源
- 题目格式大多是 pdf 和 word,并做了大量的手工处理工作(ocr 之类的 未必准确,尤其很多带有复杂公式的题目)。
- C-Eval 的所有题目都是模拟题,不是真实的考试题目,这也是考虑真题可能更加容易被大语言模型训练集所包含。
测评方式
- 官方 github 里提到(当然也是论文里的内容),固定了两种提交模板,一种是 answer-only 一种是 chain-of-thought,并支持 zero-shot 和 five-shots 两种模式。
- 不过这次使用的 lm evaluation harness 只支持了 answer-only 模式,并且是 zero-shot。
Answer only
以下是中国关于{科目}考试的单项选择题,请选出其中的正确答案。
{题目1}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案:A
[k-shot demo, note that k is 0 in the zero-shot case]
{测试题目}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案:
CoT
以下是中国关于{科目}考试的单项选择

本文讲述了C-Eval的知识评估基准,包括其来源、测评方式(如answer-only和chain-of-thought)、使用LMEvaluationHarness进行的零shot测试过程,以及Yi-34B模型在valid数据集的表现。
283

被折叠的 条评论
为什么被折叠?



