Hexo

学习率衰减

学习率衰减

什么是学习率衰减加快算法学习速率的一个办法就是随着时间慢慢减小学习率，我们称之为学习率衰减（Learnign rate decay）为什么要学习率衰减训练初期，我们希望神经网络学习速度快，代价函数能够迅速收敛，这个时候我们会选择较大的学习率。当我们逐渐靠近极小值时，如果依旧使用比较大的学习率，很有可能会导致“步幅过大”，参数更新过猛，导致越过了最低点，同理，当我们到达了另外一侧后，很有可能

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习

序列模型

序列模型

时间序列时间序列是一种按照时间顺序排列的数据点集合，这些数据点通常是某个变量在不同时间点的观测值。常见的时间序列有文本（每个文字、词语或句子按照出现的先后顺序构成了一个时间序列）、视频、音频、气象数据、股票价格等等。时间序列中的每个数据点都与特定的时间点相对应，它能够反映出数据岁时间的变化规律和趋势。通过对时间序列的分析，可以揭示出数据的长期趋势、季节性波动、周期性变化以及不规则波动等特征，进

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习

文本预处理

文本预处理

文本可以认为是一个时间序列，但我们不能够将其以字符或字符串的形式输入模型中，而应该将其转为实数或向量、矩阵的形式。在此之前，我们需要先将文本进行预处理，这些步骤通常包括：将文本作为字符串加载到内存中将字符串拆分为词元（token），如单词和字符建立一个词表，将拆分的词元映射到数字索引将文本转换为数字索引序列，方便模型操作下面是一个实例： 1234567891011121314151

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习

梯度下降的优化方法

梯度下降的优化方法

动量优化法动量梯度下降法(Momentum) 动量梯度下降法，Gradient descent with momentum，其速度总是快于标准的梯度下降算法。方法对于普通的梯度下降算法，如果学习率过大，很可能起到负面作用，使得损失函数不降反升，反而使学习速度过慢。造成这种情况的原因是当前的选择最优解（选取“坡度最大”的方向）仅仅是局部最优，其实偏离了真正的极小值，如果学习率较小，虽然效率不

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习

梯度消失和梯度爆炸

梯度消失和梯度爆炸

什么是梯度消失，什么是梯度爆炸梯度消失在进行梯度下降时，得到的梯度值接近于0，称为梯度消失梯度爆炸在进行梯度下降时，得到的梯度值非常大（NAN），称为梯度爆炸梯度消失与梯度爆炸的产生原因注：如果没有注明，下面指的很小是指很接近于0 反向传播因素导致的梯度消失或梯度爆炸根据神经网络的反向传播公式： \[ \left\{ \begin{aligned} &\frac{\p

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习

残差网络(ResNet)

残差网络(ResNet)

ResNet ResNet（残差网络）是由来自Microsoft Research的4位学者（何凯明、张翔宇、任少卿、孙剑）提出的，获得了2015年ImageNet竞赛中分类任务第一名与目标检测第一名。神经网络的退化在我们原先的印象中，神经网络层数越多、神经元的个数越多，神经网络就能够拟合更加复杂的函数，能够学习更加复杂的内容，表达的效果也应该更好。但在真正的实验数据中，当网络达到一定深度后

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习

目标检测

目标检测

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习

神经网络的前向传播与反向传播

神经网络的前向传播与反向传播

注：搬迁服务器图片已经找不到了，这个笔记的图像一开始是辅助理解，但现在已经不重要了什么是前向传播，什么是反向传播前向传播与反向传播前向传播前向传播，也叫正向传播，英文术语为Forward propagation. 前向传播可以认为是正着递推，也就是从输入层开始，经过逐层神经元的计算，得到最终预测结果的过程前向传播反向传播反向传播，也叫逆向传播，英文术语为：Backp

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习

神经网络的权重初始化

神经网络的权重初始化

注：搬迁服务器图片已经找不到了，暂时不会重新做实验出图像为什么神经网络的权重需要随机初始化如果我们将神经网络的一个隐藏层的所有参数全部初始化为相同的值，那么这一层的网络可以看成是完全对称的，每一个神经元均具有相同的参数，在之后的训练中，每一个神经元梯度下降的改变值均相同，梯度下降后参数也均相同，参数将始终保持一致，在最终结果中，该层的每个神经元参数均相同。同样的，该层如果有两个神经元参数相同，

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习

神经网络的权重初始化——修正

神经网络的权重初始化——修正

Xavier初始化原理考虑前向传播：对于全连接神经网络，假设激活函数为\(g(z) = z\)，那么， \[ Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]} = W^{[l]}Z^{[l-1]} + b^{[l]} \] 对于\(Z^{[l-1]}\)内的每个元素\(z_{ij}^{[l-1]}\)，假定全部都为独立同分布的随机变量，每个元素均服从均值为\(\mu_

2025-03-15

深度学习 > 理论基础

#人工智能 #神经网络 #深度学习