卷积神经网络 什么是卷积 在数学上,卷积(又名褶积),是通过两个函数\(f\)和\(g\)生成第三个函数的一种数学运算,其本质是一种特殊的积分变换: 设\(f(x),g(x)\)是\(R\)上的两个可积函数,则卷积为: \[ h(x) = \int_{-\infty}^{+\infty}f(\tau)g(x-\tau)d\tau \] 由上式可知,卷积是两个变量在某范围内相乘后求和的结果。如果卷积变量的序列是\ 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
神经网络的激活函数 为什么需要选择非线性的函数作为激活函数 如果我们选择线性的激活函数,也就等价于将神经元第二步的非线性计算删除,即: \[ a = g(z) = z \] 对于第\(l\)层神经网络: \[ \left\{ \begin{aligned} &Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]}\\\ &A^{[l]} = g(Z^{[l]}) = Z^{[l]} 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
神经网络的退化 神经网络的退化现象 神经网络的退化(Degradation)是指在深度学习模型中,随着网络层数的增加,模型的性能并没有如预期的那样持续提高,反而出现了性能下降的现象。这种现象与我们的直觉相反,因为理论上更深的网络应该能够捕捉到更复杂的函数关系,从而提高模型的表现。 退化现象通常表现为训练误差和测试误差随着网络层数的增加而增加。即使在训练数据充足且网络能够被充分训练的情况下,退化仍然可能出现。这与过 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
区域卷积神经网络 R-CNN R-CNN 模型 R-CNN首先从输入图像中选取若干(例如2000个)提议区域,并标注它们的类别和边界框(如偏移量)。然后用卷积神经网络对每个提议区域进行前向传播以抽取其特征。接下来,我们用每个提议区域的特征来预测类别和边界框。 R-CNN的主要思想是利用候选区域生成算法提取可能的物体区域,然后利用卷积神经网络(CNN)提取这些区域的特征,最后通过支持向量机(SVM)进行分类。 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
神经网络的正则化 正则化的介绍和推导 神经网络的模型如果比较复杂,数据集相对而言又比较简单,那么因为模型能力强大到可以记住每一个样本,其中不乏噪声数据,会导致模型的过拟合。 因此,我们需要对过拟合的模型进行简化,让模型变得简单的一种方式是让参数变少,一种是让参数变小。 让参数个数变少,那么模型的拟合能力自然会变差。让参数的值变小,那么参数对于数据的敏感度会降低。比如\(y=wx+b\)线性回归,如果\(w\)比较大 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
梯度下降的优化方法 动量优化法 动量梯度下降法(Momentum) 动量梯度下降法,Gradient descent with momentum,其速度总是快于标准的梯度下降算法。 方法 对于普通的梯度下降算法,如果学习率过大,很可能起到负面作用,使得损失函数不降反升,反而使学习速度过慢。 造成这种情况的原因是当前的选择最优解(选取“坡度最大”的方向)仅仅是局部最优,其实偏离了真正的极小值,如果学习率较小,虽然效率不 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
文本预处理 文本可以认为是一个时间序列,但我们不能够将其以字符或字符串的形式输入模型中,而应该将其转为实数或向量、矩阵的形式。 在此之前,我们需要先将文本进行预处理,这些步骤通常包括: 将文本作为字符串加载到内存中 将字符串拆分为词元(token),如单词和字符 建立一个词表,将拆分的词元映射到数字索引 将文本转换为数字索引序列,方便模型操作 下面是一个实例: 1234567891011121314151 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
序列模型 时间序列 时间序列是一种按照时间顺序排列的数据点集合,这些数据点通常是某个变量在不同时间点的观测值。常见的时间序列有文本(每个文字、词语或句子按照出现的先后顺序构成了一个时间序列)、视频、音频、气象数据、股票价格等等。 时间序列中的每个数据点都与特定的时间点相对应,它能够反映出数据岁时间的变化规律和趋势。通过对时间序列的分析,可以揭示出数据的长期趋势、季节性波动、周期性变化以及不规则波动等特征,进 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
学习率衰减 什么是学习率衰减 加快算法学习速率的一个办法就是随着时间慢慢减小学习率,我们称之为学习率衰减(Learnign rate decay) 为什么要学习率衰减 训练初期,我们希望神经网络学习速度快,代价函数能够迅速收敛,这个时候我们会选择较大的学习率。 当我们逐渐靠近极小值时,如果依旧使用比较大的学习率,很有可能会导致“步幅过大”,参数更新过猛,导致越过了最低点,同理,当我们到达了另外一侧后,很有可能 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
语言模型和数据集 语言模型 假设长度为\(T\)的文本序列中的词元依次为\(x_1, x_2, \cdots, x_T\)。于是,\(x_t\ (1\leq t\leq T)\)可以被认为是文本序列在时间步\(t\)处的观测或标签。在给定这样的文本序列时,语言模型(language model)的目标是估计序列的联合概率 \[ P(x_1, x_2, \cdots, x_T) \] 语言模型在语音识别和输入法中都是 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习