昆玉市网站建设_网站建设公司_MySQL_seo优化
2025/12/31 16:22:58 网站建设 项目流程

一、BLEU(机器翻译的 n-gram 精确率指标)

1、BLEU 是什么意思

BLEU(Bilingual Evaluation Understudy)
衡量的是:

模型生成文本中,有多少 n-gram 出现在人工参考答案中

它本质是一个n-gram Precision(精确率)指标,不是语义指标。


2、BLEU 怎么计算

Step 1:n-gram Precision

对每个 n(通常 n=1..4):

[
p_n = \frac{\sum_{g \in \text{candidate}} \min(\text{count}{cand}(g), \text{count}{ref}(g))}{\sum_{g \in \text{candidate}} \text{count}_{cand}(g)}
]

注意clipped count

如果候选里重复 10 次,但参考里只出现 2 次,只算 2 次


Step 2:加权几何平均

[
\exp\left(\sum_{n=1}^{N} w_n \log p_n\right)
]

通常:
[
w_1 = w_2 = w_3 = w_4 = \frac{1}{4}
]


Step 3:长度惩罚(Brevity Penalty)

防止模型只输出很短的“高精确率答案”。

[
BP =
\begin{cases}
1 & c > r \
e^{(1 - r/c)} & c \le r
\end{cases}
]

  • c:候选长度

  • r:参考长度


最终 BLEU

[
\text{BLEU} = BP \times \exp\left(\sum w_n \log p_n\right)
]


3、BLEU 实际怎么用

  • 多参考答案时:取最大匹配

  • 句级 BLEU 极不稳定 → 通常Corpus-level BLEU

  • 常见工具:sacreBLEU(标准化实现)


4、BLEU 的关键误区

❌ BLEU ≠ 语义正确
❌ BLEU ≠ 人类偏好
❌ 同义改写得分很低

在 LLM 评测中:

BLEU 只能用于“输出形式高度受限”的任务


二、ROUGE(摘要任务的召回导向指标)

1、ROUGE 是什么意思

ROUGE = Recall-Oriented Understudy for Gisting Evaluation

衡量的是:

人工摘要中的关键信息,有多少被模型覆盖到了

本质是n-gram Recall(召回率)


2、ROUGE 的主要变体与计算

🔹 ROUGE-1 / ROUGE-2

[
\text{ROUGE-N} = \frac{\sum_{g \in \text{ref}} \min(\text{count}{cand}(g), \text{count}{ref}(g))}{\sum_{g \in \text{ref}} \text{count}_{ref}(g)}
]

  • 分母是参考摘要

  • 强调“有没有提到”


🔹 ROUGE-L(最长公共子序列)

[
\text{ROUGE-L} = \frac{LCS(cand, ref)}{|ref|}
]

特点:

  • 不要求连续

  • 对顺序有感知

  • 对改写更宽容


3、ROUGE-F1(实践中常用)

[
F_1 = \frac{2 \cdot Precision \cdot Recall}{Precision + Recall}
]


4、ROUGE 的关键问题

❌ 覆盖 ≠ 准确
❌ 无法惩罚 hallucination
❌ 高 ROUGE 可能是“废话摘要”

工程实践中:

ROUGE 只能衡量“提没提”,不能衡量“提得对不对”


三、CLUE(中文任务评测基准,不是单一指标)

1、CLUE 是什么

CLUE ≠ 指标
CLUE = Benchmark(任务集合)

它定义了一组中文理解任务,每个任务用自己的指标。


2、CLUE 中常用的指标

分类任务(如情感)

  • Accuracy
    [
    Acc = \frac{\text{预测正确样本数}}{\text{总样本数}}
    ]


不均衡任务

  • Macro-F1

[
F1_{macro} = \frac{1}{K} \sum_{k=1}^K F1_k
]


阅读理解

  • EM(Exact Match)

  • F1(token-level overlap)


3、CLUE 总分怎么来

  • 每个任务独立打分

  • 标准化后取平均

  • 主要用于模型横向比较


4、CLUE 的评测局限

❌ 数据被刷穿
❌ 输入分布极其干净
❌ 不涉及多轮对话、推理、规划

评测结论:

CLUE 是“中文基础能力下限”,不是上线能力上限


四、HELM(Holistic Evaluation of Language Models)

1、HELM 是什么意思 / 核心思想

HELM = Holistic Evaluation of Language Models

它的创新点是:

不追求一个“总分”
✅ 在多个维度上系统评测模型行为


2、HELM 的评测维度

每个任务都在以下维度打分:

维度说明
Accuracy正确性
Robustness扰动不变性
Fairness群体公平
Bias偏见
Toxicity有害性
Calibration置信度可靠性
Efficiency推理成本

3、HELM 的计算方式/关键

HELM不定义统一公式

而是:

  • 每个维度 → 自己的 metric

  • 每个任务 → 多指标并存

  • 最终 → 雷达图 / 表格

例如:

  • Robustness = 原问题 vs 扰动问题 Accuracy 差值

  • Bias = 不同群体预测分布差异

  • Toxicity = 有害输出比例


4、HELM 的评测哲学

模型评测 = 行为科学,而不是考试

它强调:

  • failure mode

  • slice-based analysis

  • risk-aware evaluation


五、评测设计视角:四者的本质差异

名称数学本质评什么核心问题
BLEUn-gram precision翻译不看语义
ROUGEn-gram recall摘要不看事实
CLUE任务集合中文理解被刷穿
HELM多维评测框架通用 LLM成本极高

五、结论

BLEU / ROUGE / CLUE 都是“答案型评测”
HELM 是“行为型评测”

而你前面关心的:

  • 分布不一致

  • between-model variance

  • failure type

  • LLM-Judge

本质都是在 HELM 思想下的工程化落地

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询