昆玉市网站建设_网站建设公司_MySQL_seo优化-昭通市网站建设公司

一、BLEU（机器翻译的 n-gram 精确率指标）

1、BLEU 是什么意思

BLEU（Bilingual Evaluation Understudy）
衡量的是：

模型生成文本中，有多少 n-gram 出现在人工参考答案中

它本质是一个n-gram Precision（精确率）指标，不是语义指标。

2、BLEU 怎么计算

Step 1：n-gram Precision

对每个 n（通常 n=1..4）：

[
p_n = \frac{\sum_{g \in \text{candidate}} \min(\text{count}{cand}(g), \text{count}{ref}(g))}{\sum_{g \in \text{candidate}} \text{count}_{cand}(g)}
]

注意clipped count：

如果候选里重复 10 次，但参考里只出现 2 次，只算 2 次

Step 2：加权几何平均

[
\exp\left(\sum_{n=1}^{N} w_n \log p_n\right)
]

通常：
[
w_1 = w_2 = w_3 = w_4 = \frac{1}{4}
]

Step 3：长度惩罚（Brevity Penalty）

防止模型只输出很短的“高精确率答案”。

[
BP =
\begin{cases}
1 & c > r \
e^{(1 - r/c)} & c \le r
\end{cases}
]

c：候选长度
r：参考长度

最终 BLEU

[
\text{BLEU} = BP \times \exp\left(\sum w_n \log p_n\right)
]

3、BLEU 实际怎么用

多参考答案时：取最大匹配
句级 BLEU 极不稳定 → 通常Corpus-level BLEU
常见工具：sacreBLEU（标准化实现）

4、BLEU 的关键误区

❌ BLEU ≠ 语义正确
❌ BLEU ≠ 人类偏好
❌ 同义改写得分很低

在 LLM 评测中：

BLEU 只能用于“输出形式高度受限”的任务

二、ROUGE（摘要任务的召回导向指标）

1、ROUGE 是什么意思

ROUGE = Recall-Oriented Understudy for Gisting Evaluation

衡量的是：

人工摘要中的关键信息，有多少被模型覆盖到了

本质是n-gram Recall（召回率）。

2、ROUGE 的主要变体与计算

🔹 ROUGE-1 / ROUGE-2

[
\text{ROUGE-N} = \frac{\sum_{g \in \text{ref}} \min(\text{count}{cand}(g), \text{count}{ref}(g))}{\sum_{g \in \text{ref}} \text{count}_{ref}(g)}
]

分母是参考摘要
强调“有没有提到”

🔹 ROUGE-L（最长公共子序列）

[
\text{ROUGE-L} = \frac{LCS(cand, ref)}{|ref|}
]

特点：

不要求连续
对顺序有感知
对改写更宽容

3、ROUGE-F1（实践中常用）

[
F_1 = \frac{2 \cdot Precision \cdot Recall}{Precision + Recall}
]

4、ROUGE 的关键问题

❌ 覆盖 ≠ 准确
❌ 无法惩罚 hallucination
❌ 高 ROUGE 可能是“废话摘要”

工程实践中：

ROUGE 只能衡量“提没提”，不能衡量“提得对不对”

三、CLUE（中文任务评测基准，不是单一指标）

1、CLUE 是什么

CLUE ≠ 指标
CLUE = Benchmark（任务集合）

它定义了一组中文理解任务，每个任务用自己的指标。

2、CLUE 中常用的指标

分类任务（如情感）

Accuracy
[
Acc = \frac{\text{预测正确样本数}}{\text{总样本数}}
]

不均衡任务

Macro-F1

[
F1_{macro} = \frac{1}{K} \sum_{k=1}^K F1_k
]

阅读理解

EM（Exact Match）
F1（token-level overlap）

3、CLUE 总分怎么来

每个任务独立打分
标准化后取平均
主要用于模型横向比较

4、CLUE 的评测局限

❌ 数据被刷穿
❌ 输入分布极其干净
❌ 不涉及多轮对话、推理、规划

评测结论：

CLUE 是“中文基础能力下限”，不是上线能力上限

四、HELM（Holistic Evaluation of Language Models）

1、HELM 是什么意思 / 核心思想

HELM = Holistic Evaluation of Language Models

它的创新点是：

不追求一个“总分”
✅ 在多个维度上系统评测模型行为

2、HELM 的评测维度

每个任务都在以下维度打分：

维度	说明
Accuracy	正确性
Robustness	扰动不变性
Fairness	群体公平
Bias	偏见
Toxicity	有害性
Calibration	置信度可靠性
Efficiency	推理成本

3、HELM 的计算方式/关键

HELM不定义统一公式

而是：

每个维度 → 自己的 metric
每个任务 → 多指标并存
最终 → 雷达图 / 表格

例如：

Robustness = 原问题 vs 扰动问题 Accuracy 差值
Bias = 不同群体预测分布差异
Toxicity = 有害输出比例

4、HELM 的评测哲学

模型评测 = 行为科学，而不是考试

它强调：

failure mode
slice-based analysis
risk-aware evaluation

五、评测设计视角：四者的本质差异

名称	数学本质	评什么	核心问题
BLEU	n-gram precision	翻译	不看语义
ROUGE	n-gram recall	摘要	不看事实
CLUE	任务集合	中文理解	被刷穿
HELM	多维评测框架	通用 LLM	成本极高

五、结论

BLEU / ROUGE / CLUE 都是“答案型评测”
HELM 是“行为型评测”

而你前面关心的：

分布不一致
between-model variance
failure type
LLM-Judge

本质都是在 HELM 思想下的工程化落地。

昆玉市网站建设_网站建设公司_MySQL_seo优化

一、BLEU（机器翻译的 n-gram 精确率指标）

1、BLEU 是什么意思

2、BLEU 怎么计算

Step 1：n-gram Precision

Step 2：加权几何平均

Step 3：长度惩罚（Brevity Penalty）

最终 BLEU

3、BLEU 实际怎么用

4、BLEU 的关键误区

二、ROUGE（摘要任务的召回导向指标）

1、ROUGE 是什么意思

2、ROUGE 的主要变体与计算

🔹 ROUGE-1 / ROUGE-2

🔹 ROUGE-L（最长公共子序列）

3、ROUGE-F1（实践中常用）

4、ROUGE 的关键问题

三、CLUE（中文任务评测基准，不是单一指标）

1、CLUE 是什么

2、CLUE 中常用的指标

分类任务（如情感）

不均衡任务

阅读理解

3、CLUE 总分怎么来

4、CLUE 的评测局限

四、HELM（Holistic Evaluation of Language Models）

1、HELM 是什么意思 / 核心思想

2、HELM 的评测维度

3、HELM 的计算方式/关键

4、HELM 的评测哲学

五、评测设计视角：四者的本质差异

五、结论

热门文章

文章分类

标签云

需要专业的网站建设服务？

昆玉市网站建设_网站建设公司_MySQL_seo优化

一、BLEU（机器翻译的 n-gram 精确率指标）

1、BLEU 是什么意思

2、BLEU 怎么计算

Step 1：n-gram Precision

Step 2：加权几何平均

Step 3：长度惩罚（Brevity Penalty）

最终 BLEU

3、BLEU 实际怎么用

4、BLEU 的关键误区

二、ROUGE（摘要任务的召回导向指标）

1、ROUGE 是什么意思

2、ROUGE 的主要变体与计算

🔹 ROUGE-1 / ROUGE-2

🔹 ROUGE-L（最长公共子序列）

3、ROUGE-F1（实践中常用）

4、ROUGE 的关键问题

三、CLUE（中文任务评测基准，不是单一指标）

1、CLUE 是什么

2、CLUE 中常用的指标

分类任务（如情感）

不均衡任务

阅读理解

3、CLUE 总分怎么来

4、CLUE 的评测局限

四、HELM（Holistic Evaluation of Language Models）

1、HELM 是什么意思 / 核心思想

2、HELM 的评测维度

3、HELM 的计算方式/关键

4、HELM 的评测哲学

五、评测设计视角：四者的本质差异

五、结论

热门文章

文章分类

标签云

相关文章

YOLOv8在港口集装箱编号识别中的高效应用

YOLOv8与Elastic APM集成实现性能追踪

YOLOv8实时视频流检测：读取RTSP摄像头流数据

需要专业的网站建设服务？