鞍点问题
在一个具有高维空间的损失函数中,如果一个维度上(对应一个参数\(w_i\))的梯度为0,这个时候这个参数的值为\(w_i^0\),那么在\(w_i^0\)的某个邻域内,要么是凸函数,要么是凹函数,(常函数既可以算凸函数也可以算凹函数,这里的凹凸性采用欧美定义),在一个维度上,凸函数对应着极小值,凹函数对应着极大值(注意,这里并不是严格凸函数与严格凹函数,也不是严格极大值与严格极小值),如果训练到了所有维度的参数的梯度均为0时,如果真的达到了极小值,那么就要求所有维度上在此点的一个邻域内都是凸函数,很显然,这样的概率是很小的,我们更有可能遇到的是鞍点(或者是平坦区域)。
而普通的梯度下降算法训练到鞍点(或者平坦区域)后就难以继续训练了,这个时候,我们需要使用优化算法,如Adam、Momentum、RMSprop、Adadelta等算法,加速在平稳段的学习,冲出鞍点(或者平坦区域)。

鞍点问题
https://blog.shinebook.net/2025/03/15/人工智能/理论基础/深度学习/鞍点问题/