【创新实训】问答系统-Question Generation模块-【博客2：评价指标&模型初探】

原创

已于 2022-06-07 18:47:41 修改 · 1.2k 阅读

收录于

当前文章被以下社区和专栏收录：

于 2021-12-27 16:42:33 首次发布

本文深入探讨了问答系统中Question Generation（QG）任务的评价指标，包括BLUE、NIST、ROUGE-n、METEOR和ROUGE-L。在模型选择上，分析了seq2seq模式、Transformer及MT5模型，并分享了前期尝试T5和Transformer模型的实践经验，指出中文预训练模型的获取与训练挑战。此外，还推荐了相关基础网课。

前面一篇博客主要探究了QG（Question Generation）任务的基本策略：

博客1：基本策略
博客2：评价指标、初步探索
博客3：训练数据和预测数据预处理的部分
博客4：模型的构建
博客5：生成“问答对”
博客6：问答对有效性过滤（基于文本分类任务）
博客7：用问题库检索服务

一、评价指标

我们可以参考机器翻译任务中的评价指标

1.1 BLUE

1）早期的BLUE公式：
- $y$ 为文本， $y^{i}$ 为参考文本
- $C(g, y^{i})$ 表示 $g$ 在参考文本中 $y^{i}$ 出现的次数
- $G_n(y)$ 表示y的n元组集合
  $BLUE-n=p_n=\frac{\sum_{g \in G_n(y)}C(g, y^{i})}{\sum_{g \in G_n(y)}C(g, y)}$
2）改进精确率后的公式：
- BP为长度惩罚因子
- $BP= \begin{cases}
  $BLUE-n=p_n=\frac{\sum_{g \in G_n(y)}min\{C(g, y), \underset{1 \le i \le m}{max} C(g, y^{i})\}}{\sum_{g \in G_n(y)}C(g, y)}$