序列模型 时间序列 时间序列是一种按照时间顺序排列的数据点集合,这些数据点通常是某个变量在不同时间点的观测值。常见的时间序列有文本(每个文字、词语或句子按照出现的先后顺序构成了一个时间序列)、视频、音频、气象数据、股票价格等等。 时间序列中的每个数据点都与特定的时间点相对应,它能够反映出数据岁时间的变化规律和趋势。通过对时间序列的分析,可以揭示出数据的长期趋势、季节性波动、周期性变化以及不规则波动等特征,进 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
文本预处理 文本可以认为是一个时间序列,但我们不能够将其以字符或字符串的形式输入模型中,而应该将其转为实数或向量、矩阵的形式。 在此之前,我们需要先将文本进行预处理,这些步骤通常包括: 将文本作为字符串加载到内存中 将字符串拆分为词元(token),如单词和字符 建立一个词表,将拆分的词元映射到数字索引 将文本转换为数字索引序列,方便模型操作 下面是一个实例: 1234567891011121314151 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
梯度下降的优化方法 动量优化法 动量梯度下降法(Momentum) 动量梯度下降法,Gradient descent with momentum,其速度总是快于标准的梯度下降算法。 方法 对于普通的梯度下降算法,如果学习率过大,很可能起到负面作用,使得损失函数不降反升,反而使学习速度过慢。 造成这种情况的原因是当前的选择最优解(选取“坡度最大”的方向)仅仅是局部最优,其实偏离了真正的极小值,如果学习率较小,虽然效率不 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
梯度消失和梯度爆炸 什么是梯度消失,什么是梯度爆炸 梯度消失 在进行梯度下降时,得到的梯度值接近于0,称为梯度消失 梯度爆炸 在进行梯度下降时,得到的梯度值非常大(NAN),称为梯度爆炸 梯度消失与梯度爆炸的产生原因 注:如果没有注明,下面指的很小是指很接近于0 反向传播因素导致的梯度消失或梯度爆炸 根据神经网络的反向传播公式: \[ \left\{ \begin{aligned} &\frac{\p 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
残差网络(ResNet) ResNet ResNet(残差网络)是由来自Microsoft Research的4位学者(何凯明、张翔宇、任少卿、孙剑)提出的,获得了2015年ImageNet竞赛中分类任务第一名与目标检测第一名。 神经网络的退化 在我们原先的印象中,神经网络层数越多、神经元的个数越多,神经网络就能够拟合更加复杂的函数,能够学习更加复杂的内容,表达的效果也应该更好。 但在真正的实验数据中,当网络达到一定深度后 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
神经网络的前向传播与反向传播 注:搬迁服务器图片已经找不到了,这个笔记的图像一开始是辅助理解,但现在已经不重要了 什么是前向传播,什么是反向传播 前向传播与反向传播 前向传播 前向传播,也叫正向传播,英文术语为Forward propagation. 前向传播可以认为是正着递推,也就是从输入层开始,经过逐层神经元的计算,得到最终预测结果的过程 前向传播 反向传播 反向传播,也叫逆向传播,英文术语为:Backp 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
神经网络的权重初始化 注:搬迁服务器图片已经找不到了,暂时不会重新做实验出图像 为什么神经网络的权重需要随机初始化 如果我们将神经网络的一个隐藏层的所有参数全部初始化为相同的值,那么这一层的网络可以看成是完全对称的,每一个神经元均具有相同的参数,在之后的训练中,每一个神经元梯度下降的改变值均相同,梯度下降后参数也均相同,参数将始终保持一致,在最终结果中,该层的每个神经元参数均相同。同样的,该层如果有两个神经元参数相同, 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
神经网络的权重初始化——修正 Xavier初始化 原理 考虑前向传播: 对于全连接神经网络,假设激活函数为\(g(z) = z\),那么, \[ Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]} = W^{[l]}Z^{[l-1]} + b^{[l]} \] 对于\(Z^{[l-1]}\)内的每个元素\(z_{ij}^{[l-1]}\),假定全部都为独立同分布的随机变量,每个元素均服从均值为\(\mu_ 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
神经网络的正则化 正则化的介绍和推导 神经网络的模型如果比较复杂,数据集相对而言又比较简单,那么因为模型能力强大到可以记住每一个样本,其中不乏噪声数据,会导致模型的过拟合。 因此,我们需要对过拟合的模型进行简化,让模型变得简单的一种方式是让参数变少,一种是让参数变小。 让参数个数变少,那么模型的拟合能力自然会变差。让参数的值变小,那么参数对于数据的敏感度会降低。比如\(y=wx+b\)线性回归,如果\(w\)比较大 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习