镇江市网站建设_网站建设公司_原型设计_seo优化-绵阳市网站建设公司

在深度学习中，激活函数（Activation Function）是神经网络的灵魂。它不仅赋予网络非线性能力，还决定了训练的稳定性和模型性能。那么，激活函数到底是什么？为什么我们非用不可？有哪些经典函数？又该如何选择？本文带你全面解析。

所有相关源码示例、流程图、面试八股、模型配置与知识库构建技巧，我也将持续更新在Github：AIHub，欢迎关注收藏！

阅读本文时，请带着这三个问题思考：

什么是激活函数，为什么需要激活函数？
经典的激活函数有哪些？
怎么选择激活函数？

1. 什么是激活函数，为什么需要激活函数

激活函数的核心作用就是为神经网络引入非线性。

为什么需要非线性？
想象一下，如果网络里每一层都是线性的（比如 y = Wx + b），无论堆叠多少层，最终网络都只是一条线性映射。深度堆叠就没有意义了，网络的表达能力非常有限。
激活函数的作用
激活函数在每个神经元输出前进行非线性变换，让网络可以拟合复杂的函数关系，从而解决分类、回归等非线性问题。

**直观理解一下，**激活函数就像神经网络里的“开关”或“滤镜”，它决定了每个神经元应该多大程度地“激活”，从而使网络具备强大的表达能力。

2. 经典的激活函数

在深度学习中，有几类经典激活函数，每种都有自己的优缺点：

1. Sigmoid

公式：

f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + e^{-x}}f(x)=1+e−x1

优点：输出范围在 (0,1)，可以表示概率
缺点：容易饱和（输入过大或过小时梯度接近0，导致梯度消失）
应用场景：二分类输出层

2. Tanh（双曲正切）

公式：

f ( x ) = tanh ⁡ ( x ) = e x − e − x e x + e − x f(x) = \tanh(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}f(x)=tanh(x)=ex+e−xex−e−x

优点：输出在 (-1,1)，比 sigmoid 居中，对梯度更友好
缺点：仍可能梯度消失
应用场景：RNN 隐层

3. ReLU（Rectified Linear Unit）

公式：

f ( x ) = max ⁡ ( 0 , x ) f(x) = \max(0, x)f(x)=max(0,x)

优点：计算简单，导数恒为1（正区间），缓解梯度消失
缺点：负区间可能“死亡”，即神经元永远不激活
应用场景：隐藏层主流激活函数

4. Leaky ReLU / Parametric ReLU（PReLU）

公式：

f ( x ) = { x , x > 0 α x , x ≤ 0 ( α ≈ 0.01 ) f(x) = \begin{cases} x, & x > 0 \\ \alpha x, & x \le 0 \end{cases} \quad (\alpha \approx 0.01)f(x)={x,αx,x>0x≤0(α≈0.01)

Leaky ReLU: 对负区间引入一个小斜率，避免神经元死亡
PReLU: 斜率可学习，更灵活

5. Softmax

公式

Softmax ( x i ) = e x i ∑ j e x j \text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}Softmax(xi)=∑jexjexi

Softmax 输出的是一组归一化的概率，在图中使用柱状图 (bar chart)展示每个输入元素对应的概率值。

作用：多分类输出概率分布
应用场景：分类任务输出层

6.ELU（Exponential Linear Unit）

公式：

f ( x ) = { x if x > 0 α ( e x − 1 ) if x ≤ 0 f(x) = \begin{cases} x & \text{if } x>0 \\ \alpha(e^x - 1) & \text{if } x \le 0 \end{cases}f(x)={xα(ex−1)ifx>0ifx≤0

**特点：**负区间平滑非零，避免 ReLU 死区问题。
优点：输出均值更接近 0，梯度更稳定。
常用于：深层 CNN、MLP。

7.SELU（Scaled Exponential Linear Unit）

公式：
f(x)=λ⋅ELU(α,x)

其中 λ≈1.05，α≈1.67。

**特点：**在特定初始化下能实现自归一化，保持激活均值和方差稳定。
优点：无需 BatchNorm。
常用于：自归一化神经网络（Self-Normalizing NN）。

8.GELU（Gaussian Error Linear Unit）

公式：

f ( x ) = x ⋅ Φ ( x ) ≈ 0.5 x ( 1 + tanh ⁡ [ 2 / π ( x + 0.044715 x 3 ) ] ) f(x) = x \cdot \Phi(x) \approx 0.5x(1+\tanh[\sqrt{2/\pi}(x+0.044715x^3)])f(x)=x⋅Φ(x)≈0.5x(1+tanh[2/π(x+0.044715x3)])

其中 Φ(x) 是标准正态分布 CDF。

**特点：**在 ReLU 的基础上引入概率思想，让激活与输入大小平滑相关。
优点：更平滑、更稳定，效果普遍优于 ReLU。
常用于：Transformer（BERT、GPT、ViT）。

9.SiLU（Swish）

公式：

f ( x ) = x ⋅ σ ( x ) f(x) = x \cdot \sigma(x)f(x)=x⋅σ(x)

**特点：**与 GELU 类似，是一种平滑版 ReLU。
优点：梯度连续，优化更稳定。
常用于：EfficientNet、Transformer。

10.GLU（Gated Linear Unit）

GLU/SwiGLU 在实际中是门控形式（two linear branches），是向量上的逐元素操作；为了在一维上可视化，我用简化的标量形式来画图 —— 把两条分支都用相同的输入值（即把 a=x, b=x），因此 GLU(x) = x * sigmoid(x)，SwiGLU(x) = x * SiLU(x)。这能直观展示门控机制的形状差异。

公式：

f ( x ) = ( x W 1 ) ⊙ σ ( x W 2 ) f(x) = (xW_1) \odot \sigma(xW_2)f(x)=(xW1)⊙σ(xW2)
其中第二个分支作为门控信号。

**特点：**通过门控机制控制信息流，增强非线性表达。
优点：适合序列建模、控制性强。
常用于：Transformer FFN、语言模型。

11.SwiGLU（Swish-Gated Linear Unit）

公式：

f ( x 1 , x 2 ) = x 1 ⋅ Swish ( x 2 ) = x 1 ⋅ ( x 2 ⋅ σ ( x 2 ) ) f(x_1, x_2) = x_1 \cdot \text{Swish}(x_2) = x_1 \cdot (x_2 \cdot \sigma(x_2))f(x1,x2)=x1⋅Swish(x2)=x1⋅(x2⋅σ(x2))

**特点：**GLU 的改进版，把 Sigmoid 门换成 Swish 门。
优点：表达力更强、梯度更平滑，性能优于 ReLU/GELU。
常用于：LLaMA、PaLM、GPT-NeoX 等现代 LLM。

3. 怎么选择激活函数

选择激活函数时，可以根据以下几个原则：

隐藏层
- 优先使用 ReLU 或其变种（Leaky ReLU, ELU, PReLU）
- 优点：计算快、缓解梯度消失
输出层
- 二分类：Sigmoid
- 多分类：Softmax
- 回归：线性或无激活函数
网络结构和任务需求
- RNN 中常用 tanh 或 ReLU
- 深层网络推荐使用残差连接 + ReLU
- 如果担心 ReLU 死神经元，可尝试 Leaky ReLU 或 ELU

小技巧：

如果不确定用哪个激活函数，隐藏层可以先用 ReLU，输出层按任务选择；训练中注意梯度情况，如果梯度消失或爆炸，再考虑替换或调整激活函数。

4. 总结

激活函数是神经网络不可或缺的魔法开关，让网络能够拟合复杂的非线性关系。

核心作用：引入非线性，增强网络表达能力
经典激活函数：Sigmoid、Tanh、ReLU及变种、ELU、Softmax
选择策略：隐藏层用 ReLU 或变种，输出层根据任务选择，结合网络深度和训练表现调整

理解激活函数的本质和特点，有助于设计更稳定、高效的神经网络。

最后我们来回答一下文章开头提出的三个问题：

什么是激活函数，为什么需要激活函数？
激活函数是神经网络中对每个神经元输出进行非线性变换的函数，它的作用是赋予网络非线性能力，使得深层网络可以拟合复杂的函数关系。如果没有激活函数，无论网络有多少层，其输出都只是输入的线性组合，无法处理复杂问题。
经典的激活函数有哪些？
经典激活函数包括 Sigmoid、Tanh、ReLU 及其变种（如 Leaky ReLU、PReLU）、ELU 和 Softmax 等。其中，Sigmoid 和 Tanh 常用于小型网络或 RNN，ReLU 是深层网络隐藏层的主流选择，而 Softmax 常用于多分类任务的输出层。
怎么选择激活函数？
选择激活函数时，隐藏层通常优先使用 ReLU 或其变种，因为它计算简单且能缓解梯度消失；输出层则根据任务选择，比如二分类用 Sigmoid、多分类用 Softmax、回归任务可用线性或无激活函数；在特定场景下，也可以结合网络深度和训练表现灵活调整。

关于深度学习和大模型相关的知识和前沿技术更新，请关注公众号aicoting！

镇江市网站建设_网站建设公司_原型设计_seo优化

1. 什么是激活函数，为什么需要激活函数

2. 经典的激活函数

1. Sigmoid

2. Tanh（双曲正切）

3. ReLU（Rectified Linear Unit）

4. Leaky ReLU / Parametric ReLU（PReLU）

5. Softmax

6.ELU（Exponential Linear Unit）

7.SELU（Scaled Exponential Linear Unit）

8.GELU（Gaussian Error Linear Unit）

9.SiLU（Swish）

10.GLU（Gated Linear Unit）

11.SwiGLU（Swish-Gated Linear Unit）

3. 怎么选择激活函数

4. 总结

热门文章

文章分类

标签云

需要专业的网站建设服务？

镇江市网站建设_网站建设公司_原型设计_seo优化

1. 什么是激活函数，为什么需要激活函数

2. 经典的激活函数

1. Sigmoid

2. Tanh（双曲正切）

3. ReLU（Rectified Linear Unit）

4. Leaky ReLU / Parametric ReLU（PReLU）

5. Softmax

6.ELU（Exponential Linear Unit）

7.SELU（Scaled Exponential Linear Unit）

8.GELU（Gaussian Error Linear Unit）

9.SiLU（Swish）

10.GLU（Gated Linear Unit）

11.SwiGLU（Swish-Gated Linear Unit）

3. 怎么选择激活函数

4. 总结

热门文章

文章分类

标签云

相关文章

Self-Attention 为什么要做 QKV 的线性变换？又为什么要做 Softmax？

手把手教你学GPU的KMD专栏--第一章：GPU与KMD基础1.1 GPU的基本概念与架构

第12届全球边缘计算大会-精彩瞬间

需要专业的网站建设服务？