胡杨河市网站建设_网站建设公司_UX设计_seo优化-平凉市网站建设公司

第六章：自然语言处理技术全景

6.1 语言模型演进：从n-gram到BERT

学习目标

理解语言模型的核心任务与评估方法，掌握从统计语言模型到神经语言模型的关键技术跃迁，深入理解BERT的预训练范式创新及其历史意义，为后续大语言模型学习奠定基础。

一、语言模型的基本问题定义

1.1 什么是语言模型？

核心任务：语言模型（Language Model, LM）旨在计算一个词序列的概率，或预测序列中下一个词的概率分布。

数学形式：给定词序列w 1 , w 2 , . . . , w T w_1, w_2, ..., w_Tw1,w2,...,wT，语言模型计算联合概率：
[
P(w_1, w_2, …, w_T) = \prod_{t=1}^T P(w_t | w_1, …, w_{t-1})
]

两大核心能力：

生成：采样生成符合语言规律的文本
评估：判断文本的流畅性与合理性

1.2 语言模型的关键挑战

维度灾难

词典大小∣ V ∣ |V|∣V∣通常为万到百万量级，n nn个词的联合概率空间大小为∣ V ∣ n |V|^n∣V∣n，完全不可枚举。

长距离依赖

自然语言中，相隔较远的词之间可能存在强依赖关系，如主谓一致、指代关系等。

数据稀疏性

实际语料中，大多数词序列组合从未出现，但模型需要合理估计其概率。

二、统计语言模型时代

2.1 n-gram模型：马尔可夫假设的实践

核心思想

通过马尔可夫假设简化条件概率计算：一个词的概率只依赖于其前n − 1 n-1n−1个词。

n-gram概率估计：
[
P(w_t | w_1, …, w_{t-1}) \approx P(w_t | w_{t-n+1}, …, w_{t-1})
]

n的选择权衡

n值	模型名称	优势	劣势
1	unigram	参数少，估计稳定	忽略所有上下文
2	bigram	捕捉局部依赖	长距离依赖缺失
3	trigram	平衡性能与复杂度	数据稀疏问题显著
4+	4-gram, 5-gram	捕捉更长上下文	参数爆炸，严重稀疏

参数估计：最大似然估计

从语料中统计n-gram出现频次：
[
P(w_t | w_{t-n+1}, …, w_{t-1}) = \frac{\text{count}(w_{t-n+1}, …, w_t)}{\text{count}(w_{t-n+1}, …, w_{t-1})}
]

2.2 平滑技术：应对稀疏数据

加一平滑（Laplace Smoothing）

为所有n-gram计数加1：
[
P_{\text{add-one}}(w_t | w_{t-1}) = \frac{\text{count}(w_{t-1}, w_t) + 1}{\text{count}(w_{t-1}) + |V|}
]

古德-图灵估计（Good-Turing）

将频次r rr的n-gram概率估计调整为r ∗ r^*r∗：
[
r^* = (r+1) \frac{N_{r+1}}{N_r}
]
其中N r N_rN

胡杨河市网站建设_网站建设公司_UX设计_seo优化

第六章：自然语言处理技术全景

6.1 语言模型演进：从n-gram到BERT

学习目标

一、语言模型的基本问题定义

1.1 什么是语言模型？

1.2 语言模型的关键挑战

维度灾难

长距离依赖

数据稀疏性

二、统计语言模型时代

2.1 n-gram模型：马尔可夫假设的实践

核心思想

n的选择权衡

参数估计：最大似然估计

2.2 平滑技术：应对稀疏数据

加一平滑（Laplace Smoothing）

古德-图灵估计（Good-Turing）

热门文章

文章分类

标签云

需要专业的网站建设服务？

胡杨河市网站建设_网站建设公司_UX设计_seo优化

第六章：自然语言处理技术全景

6.1 语言模型演进：从n-gram到BERT

学习目标

一、语言模型的基本问题定义

1.1 什么是语言模型？

1.2 语言模型的关键挑战

维度灾难

长距离依赖

数据稀疏性

二、统计语言模型时代

2.1 n-gram模型：马尔可夫假设的实践

核心思想

n的选择权衡

参数估计：最大似然估计

2.2 平滑技术：应对稀疏数据

加一平滑（Laplace Smoothing）

古德-图灵估计（Good-Turing）

热门文章

文章分类

标签云

相关文章

【效能评测】四大王牌工具赋能教师：揭秘每天“多出两小时”的高效教学秘诀

我发现扩散模型生成合成基因数据破解罕见病早筛样本稀缺

技术收藏 | 一文读懂Agentic RAG：大模型检索增强生成的新范式

需要专业的网站建设服务？