|
47 | 47 |
|
48 | 48 | <img src="res/08_sigmoid_function.png" style="zoom:62%;">
|
49 | 49 |
|
50 |
| -- **特点**:Sigmoid 函数将输入值映射到$\small{(0, 1)}$的范围内,呈现出平滑的 S 型曲线。 |
51 |
| -- **优点**:特别适用于概率预测,因为输出在$\small{(0, 1)}$之间,可以理解为概率值。 |
| 50 | +- **特点**:Sigmoid 函数将输入值映射到 $\small{(0, 1)}$ 的范围内,呈现出平滑的 S 型曲线。 |
| 51 | +- **优点**:特别适用于概率预测,因为输出在 $\small{(0, 1)}$ 之间,可以理解为概率值。 |
52 | 52 | - **缺点**:对于较大的正值或负值,梯度会变得很小,导致梯度消失问题,从而影响深层网络的训练。除此以外,由于输出非零中心,这会导致梯度更新不对称,可能使得收敛变慢。
|
53 | 53 |
|
54 | 54 | 2. Tanh 函数(双曲正切函数)
|
|
59 | 59 |
|
60 | 60 | <img src="res/08_tanh_function.png" style="zoom:62%;" />
|
61 | 61 |
|
62 |
| -- **特点**:Tanh 函数将输入映射到$\small{(-1, 1)}$的范围内,也是 S 型曲线,但中心对称。 |
63 |
| -- **优点**:与 Sigmoid 类似,但输出在$\small{(-1, 1)}$之间,这样的零中心输出使得梯度更新更对称,更适合用于深层网络。 |
| 62 | +- **特点**:Tanh 函数将输入映射到 $\small{(-1, 1)}$ 的范围内,也是 S 型曲线,但中心对称。 |
| 63 | +- **优点**:与 Sigmoid 类似,但输出在 $\small{(-1, 1)}$ 之间,这样的零中心输出使得梯度更新更对称,更适合用于深层网络。 |
64 | 64 | - **缺点**:在极值附近,梯度仍会趋向于零,导致梯度消失问题。
|
65 | 65 |
|
66 | 66 | 3. ReLU 函数(Rectified Linear Unit)
|
|
69 | 69 | f(x) = max(0, x)
|
70 | 70 | $$
|
71 | 71 |
|
72 |
| -- **特点**:ReLU 将输入小于零的部分设为零,而大于零的部分保持不变,因此其输出范围是$\small{[0, +\infty]}$。 |
| 72 | +- **特点**:ReLU 将输入小于零的部分设为零,而大于零的部分保持不变,因此其输出范围是 $\small{[0, +\infty]}$ 。 |
73 | 73 | - **优点**:计算简单,有效避免了梯度消失问题,因此被广泛应用于深层网络。能够保持稀疏性,许多神经元的输出为零,有利于网络简化计算。
|
74 | 74 | - **缺点**:当输入为负数时,ReLU 的梯度为零。若输入长期为负数,神经元可能“死亡”并停止更新。
|
75 | 75 |
|
|
79 | 79 | f(x) = \begin{cases} x & (x \gt 0) \\ {\alpha}x & (x \le 0)\end{cases}
|
80 | 80 | $$
|
81 | 81 |
|
82 |
| -- **特点**:Leaky ReLU 是对 ReLU 的改进,它为输入小于零的部分引入了一个小的负斜率(通常取值$\small{\alpha = 0.01}$),使得梯度不为零。 |
| 82 | +- **特点**:Leaky ReLU 是对 ReLU 的改进,它为输入小于零的部分引入了一个小的负斜率(通常取值 $\small{\alpha = 0.01}$ ),使得梯度不为零。 |
83 | 83 | - **优点**:通过允许负值的输出,避免了死神经元问题,使得网络更健壮。
|
84 | 84 | - **缺点**:虽然 Leaky ReLU 能缓解死神经元问题,但其负值斜率的选择对网络性能会有一些影响,且对模型的非线性表示能力没有显著提升。
|
85 | 85 |
|
86 |
| -在一个包含多个层的神经网络中,信息会一层一层的进行传递。假设第 $\small{l}$ 层的输出是 $\small{\mathbf{a}^{[l]}}$ ,按照上面神经元计算公式,有: |
| 86 | +在一个包含多个层的神经网络中,信息会一层一层的进行传递。假设第 $\small{l}$ 层的输出是 $\small{\mathbf{a}^{[l]}}$ ,按照上面神经元计算公式,有: |
87 | 87 |
|
88 | 88 | $$
|
89 | 89 | \mathbf{a}^{[l]} = f \left( \mathbf{W}^{[l]} \mathbf{a}^{[l-1]} + \mathbf{b}^{[l]} \right)
|
|
0 commit comments