摘要生成评估指标：ROUGE 和 BLEU

ROUGE 和 BLEU 是机器翻译、摘要生成以及阅读理解等领域经常用到的评估指标，这篇文章我们就来认识一下这两个指标：

ROUGH

相关文章：ROUGE: A Package for Automatic Evaluation of Summaries (Chin-Yew Lin, 2004)

摘要：文章提出了一种面向召回率的评价方法 ROUGE（Recall-Oriented Understudy for Gisting Evaluation）。该方法可细分为 ROUGE-N, ROUGE-L, ROUGE-W 以及 ROUGE-S 四种评价指标。

ROUGE-N

ROUGE-N 指标计算生成的摘要与相应的参考摘要的 n-gram 召回率，具体的公式为：

\[ROUGE-N=\frac{\sum_{S \in {ReferenceSummaries}}\sum_{gram_n \in S}Count_{match}(gram_n)}{\sum_{S \in {ReferenceSummaries}}\sum_{gram_n \in S}Count_(gram_n)}\]

其中分母部分计算参考摘要中 n-gram 的个数，分子部分计算参考摘要和自动摘要共有的 n-gram 的个数。

实例：

自动摘要：the cat was found under the bed

参考摘要：the cat was under the bed

ROUGE-1 = 6/6 = 1

ROUGE-2 = 4/5 = 0.8

ROUGE-L

ROUGE-L 指标基于两个文本单元的最长公共序列，计算 F-measure，具体公式如下：

\[R_{LCS}=\frac{LCS(X, Y)}{m}\] \[P_{LCS}=\frac{LCS(X, Y)}{n}\] \[F_{LCS}=\frac{(1+\beta^2)R_{LCS}P_{LCS}}{R_{LCS}+\beta^2P_{LCS}}\]

其中 X 为参考摘要，长度为 m；Y 为生成摘要，长度为 n；β 为精确率和召回率的比值。

实例：

自动摘要：police kill the gunman

参考摘要：police killed the gunman

R = 3/4

P = 3/4

ROUGH-L = F = 3/4 = 0.75

ROUGE-W

ROUGE-W 指标在 ROUGE-L 的基础上进行加权计算。

X: [A B C D E F G]

Y1: [A B C D H I K]

Y2: [A H B K C I D]

Y1 和 Y2 的 ROUGH-L 值都为 4/7，但明显 Y1 与参考摘要更加接近，所以作者提出了一个基于最长公共子序列的加权算法。

ROUGH-S

ROUGH-S 使用了 skip-grams，在参考摘要和生成摘要进行进行匹配时，不要求 gram 之间是连续的，可跳过几个单词，如 skip-bigram，在产生 grams 时，允许最多跳过两个词。

实例：

例子：cat in the hat

skip-bigrams：cat in, cat the, cat hat, in the, in hat, the hat

BLEU

相关文章：BLEU: a Method for Automatic Evaluation of Machine Translation (Kishore Papineni, 2002)

摘要：文章提出了一种评估机器翻译结果质量的方法 BLEU（Bilingual Evaluation Understudy）。

BLEU 指标先计算生成翻译与相应的参考翻译的 n-gram 精确率，具体的公式为：

\[p_n=\frac{\sum_{C \in {Candidate}}\sum_{gram_n \in C}Count_{clip}(gram_n)}{\sum_{C' \in {Candidate}}\sum_{gram_n \in C'}Count_(gram_n)}\]

其中分母部分计算生成翻译中 n-gram 的个数，分子部分计算参考摘要和自动摘要共有的 n-gram 的个数。

然后再计算具体的 BLEU 值：

BLEU=BP*exp(\sum_{n=1}^N w_nlogp_n)

其中 w 表示 n 元词的权重，BP 是对生成翻译文本过短的一个惩罚因子。具体计算公式如下：

\[BP= \left\{ \begin{array}{**lr**} 1 & c > r \\ exp(1-r/c) & c\leq r \\ \end{array} \right.\]

其中 c 为生成翻译长度，r 为参考翻译长度。

其他指标

精准匹配度（Exact Match，EM）：计算预测结果与标准答案是否完全匹配。
模糊匹配度（F1）：计算预测结果与标准答案之间字级别的匹配程度

Peiqin Lin's Homepage