C-Eval 大语言模型测评 - lm evaluation harness + vllm 跑测评

原创

已于 2024-01-11 09:31:41 修改 · 8.3k 阅读

·

43

·

于 2024-01-10 23:41:03 首次发布

本文讲述了C-Eval的知识评估基准，包括其来源、测评方式（如answer-only和chain-of-thought）、使用LMEvaluationHarness进行的零shot测试过程，以及Yi-34B模型在valid数据集的表现。

目录

这里是【C-Eval 大语言模型评测基准- 用 LM Evaluation Harness + vLLM 跑起来】的笔记哈。

C-Eval 的基本介绍

C-Eval 是一个「知识评估基准」，参考国外的评测基准 MMLU 而来，发布于 2023 年 5 月 22 日
和 MMLU 一样，C-Eval 都是客观题评测，所有都是单项选择题，每个题目 ABCD 四个选项，有唯一答案
C-Eval 涵盖了 52 个不同学科，一共 13948 个题目，难度级别覆盖初中、高中、大学和职业考试
52 个学科，每个学科拆分为三个数据集：dev、validation 和 test。每个科目的 dev 集包含五个示范实例以及为 chain of thought 格式提供的解释；validation 数据集主要是用于超参数评估，它给了问题的答案；而 test 集则用于模型评估。test 集上的答案不公开，需要用户提交其结果到官方网站才能获取测试结果。

题目来源

题目格式大多是 pdf 和 word，并做了大量的手工处理工作（ocr 之类的未必准确，尤其很多带有复杂公式的题目）。
C-Eval 的所有题目都是模拟题，不是真实的考试题目，这也是考虑真题可能更加容易被大语言模型训练集所包含。

测评方式

官方 github 里提到（当然也是论文里的内容），固定了两种提交模板，一种是 answer-only 一种是 chain-of-thought，并支持 zero-shot 和 five-shots 两种模式。
不过这次使用的 lm evaluation harness 只支持了 answer-only 模式，并且是 zero-shot。

Answer only

以下是中国关于{科目}考试的单项选择题，请选出其中的正确答案。

{题目1}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案：A

[k-shot demo, note that k is 0 in the zero-shot case]

{测试题目}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案：

CoT

以下是中国关于{科目}考试的单项选择

标签

#语言模型 #llama #人工智能 #自然语言处理 #神经网络

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。