Softmax回归 Softmax计算公式 给定一个向量\(\mathbf{z}\),其元素为\(z_1,z_2,\cdots,z_n\),Softmax函数定义为: \[ \mathrm{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{n}e^{z_j}} \] 其中,\(e\)是自然常数,\(z_i\)是向量\(\mathbf{z}\)的第\(i\)个元素,求和是在所有元素上 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
区域卷积神经网络 R-CNN R-CNN 模型 R-CNN首先从输入图像中选取若干(例如2000个)提议区域,并标注它们的类别和边界框(如偏移量)。然后用卷积神经网络对每个提议区域进行前向传播以抽取其特征。接下来,我们用每个提议区域的特征来预测类别和边界框。 R-CNN的主要思想是利用候选区域生成算法提取可能的物体区域,然后利用卷积神经网络(CNN)提取这些区域的特征,最后通过支持向量机(SVM)进行分类。 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
卷积神经网络 什么是卷积 在数学上,卷积(又名褶积),是通过两个函数\(f\)和\(g\)生成第三个函数的一种数学运算,其本质是一种特殊的积分变换: 设\(f(x),g(x)\)是\(R\)上的两个可积函数,则卷积为: \[ h(x) = \int_{-\infty}^{+\infty}f(\tau)g(x-\tau)d\tau \] 由上式可知,卷积是两个变量在某范围内相乘后求和的结果。如果卷积变量的序列是\ 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
学习率衰减 什么是学习率衰减 加快算法学习速率的一个办法就是随着时间慢慢减小学习率,我们称之为学习率衰减(Learnign rate decay) 为什么要学习率衰减 训练初期,我们希望神经网络学习速度快,代价函数能够迅速收敛,这个时候我们会选择较大的学习率。 当我们逐渐靠近极小值时,如果依旧使用比较大的学习率,很有可能会导致“步幅过大”,参数更新过猛,导致越过了最低点,同理,当我们到达了另外一侧后,很有可能 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
序列模型 时间序列 时间序列是一种按照时间顺序排列的数据点集合,这些数据点通常是某个变量在不同时间点的观测值。常见的时间序列有文本(每个文字、词语或句子按照出现的先后顺序构成了一个时间序列)、视频、音频、气象数据、股票价格等等。 时间序列中的每个数据点都与特定的时间点相对应,它能够反映出数据岁时间的变化规律和趋势。通过对时间序列的分析,可以揭示出数据的长期趋势、季节性波动、周期性变化以及不规则波动等特征,进 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
文本预处理 文本可以认为是一个时间序列,但我们不能够将其以字符或字符串的形式输入模型中,而应该将其转为实数或向量、矩阵的形式。 在此之前,我们需要先将文本进行预处理,这些步骤通常包括: 将文本作为字符串加载到内存中 将字符串拆分为词元(token),如单词和字符 建立一个词表,将拆分的词元映射到数字索引 将文本转换为数字索引序列,方便模型操作 下面是一个实例: 1234567891011121314151 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
梯度下降的优化方法 动量优化法 动量梯度下降法(Momentum) 动量梯度下降法,Gradient descent with momentum,其速度总是快于标准的梯度下降算法。 方法 对于普通的梯度下降算法,如果学习率过大,很可能起到负面作用,使得损失函数不降反升,反而使学习速度过慢。 造成这种情况的原因是当前的选择最优解(选取“坡度最大”的方向)仅仅是局部最优,其实偏离了真正的极小值,如果学习率较小,虽然效率不 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
梯度消失和梯度爆炸 什么是梯度消失,什么是梯度爆炸 梯度消失 在进行梯度下降时,得到的梯度值接近于0,称为梯度消失 梯度爆炸 在进行梯度下降时,得到的梯度值非常大(NAN),称为梯度爆炸 梯度消失与梯度爆炸的产生原因 注:如果没有注明,下面指的很小是指很接近于0 反向传播因素导致的梯度消失或梯度爆炸 根据神经网络的反向传播公式: \[ \left\{ \begin{aligned} &\frac{\p 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习
残差网络(ResNet) ResNet ResNet(残差网络)是由来自Microsoft Research的4位学者(何凯明、张翔宇、任少卿、孙剑)提出的,获得了2015年ImageNet竞赛中分类任务第一名与目标检测第一名。 神经网络的退化 在我们原先的印象中,神经网络层数越多、神经元的个数越多,神经网络就能够拟合更加复杂的函数,能够学习更加复杂的内容,表达的效果也应该更好。 但在真正的实验数据中,当网络达到一定深度后 2025-03-15 深度学习 > 理论基础 #人工智能 #神经网络 #深度学习