图像增广
为什么要使用图像增广
- 防止过拟合:深度学习模型,尤其是复杂的模型,容易在训练数据上过拟合,即模型记住了训练数据中的特定细节而不是学习到通用的特征。图像增广通过引入变化的训练样本(相当于给训练样本添加噪声)帮助模型学习更鲁棒的特征,从而减少过拟合。
- 增加数据多样性:在实际应用中,输入到模型的图像可能会有各种不同的变化,如不同的拍摄角度、光照条件、尺度等。图像增广可以模拟这些变化,使模型能够更好地泛化到新的、未见过的数据。
- 扩充数据集:对于一些数据集较小的情况,图像增广可以有效地增加训练样本的数量,从而提高模型的性能。
- 提高模型的鲁棒性:通过图像增广,模型学会了对输入图像的小变化不敏感,这提高了模型在实际应用中的鲁棒性,例如对于噪声、遮挡等干扰的抵抗能力。
常见的图像增广方法
常见的图像增广技术包括:
- 几何变换:如旋转、缩放、裁剪、翻转等。
- 颜色变换:如亮度、对比度、饱和度的调整。
- 噪声添加:如高斯噪声、椒盐噪声等。
- 遮挡和裁剪:如随机遮挡图像的一部分,或者进行随机裁剪。
- 透视变换:模拟不同的视角和拍摄条件。
在实际使用时,可以根据具体任务和数据集的特点选择合适的图像增广方法。例如,对于人脸识别任务,可能不希望使用过于剧烈的几何变换,以免改变人脸的关键特征;而对于一般的物体识别任务,可以更自由地使用各种增广技术。
可以使用torchvision
等库来对图像进行增广操作
图像增广
https://blog.shinebook.net/2025/03/05/人工智能/pytorch/图像增广/