分享好友 最新动态首页 最新动态分类 切换频道
CVPR 2023 Highlight丨GAM:可泛化的一阶平滑优化器
2024-12-27 04:44

近年来,神经网络收敛位置的平滑性(flatness)被证明与模型泛化能力有直接的联系,而现有对平滑性的定义仍局限于 sharpness-aware minimization(SAM)及其变体的零阶平滑性(zeroth-order flatness),即收敛位置邻域域内最大损失值与当前损失值的差。

CVPR 2023 Highlight丨GAM:可泛化的一阶平滑优化器

清华大学崔鹏教授的 CVPR2023 Highlight 论文”Gradient norm aware minimization seeks first-order flatness and improves generalization”发现零阶平滑性有一定的局限性,所以提出了一阶平滑性的概念,并进一步提出了可以约束一阶平滑性的优化器 GAM,大量实验证明 GAM 相比于现有优化器有更强的泛化能力。

论文:https://arxiv.org/abs/2303.03108

代码:https://github.com/xxgege/GAM

1

神经网络的泛化能力与收敛位置平滑性

现今大型神经网络的参数规模急剧增大,模型在训练过程中对训练数据的拟合能力也大幅变强,但充分拟合训练数据并不一定代表模型在测试数据上表现可靠。如图1所示,模型在训练数据上持续优化甚至可能导致其在测试数据上的表现下降。而在绝大多数场景中,模型在测试场景下的表现才是更重要的。

图1 神经网络的泛化误差

近年来,很多工作试图探索影响深度模型泛化能力的因素。如图2所示为使用使用残差连接的网络与不使用残差连接的网络 loss landscape(模型参数取值于其loss关系的可视化) 对比。当模型不使用残差连接时,其loss landscape明显更加陡峭,有很多尖锐的凸起和凹陷,而使用残差连接的模型loss landscape会显著平滑,收敛位置(极小值点)也相对更加平缓。联想到残差连接极大提升了深度模型可扩展性和泛化性,很多后续工作开始研究收敛位置平滑性与模型泛化性的关系。

图2 使用残差连接的网络与不使用残差连接的网络 loss landscape 对比

图3 平滑极值点的泛化误差大于尖锐极值点的泛化误差

Nitish Shirish等人[2]通过实验证明平滑的极小值点(flat minima)的泛化能力强于尖锐的极小值点(sharp minima),直觉性的示例如图3所示,更平滑的极值点相比于尖锐极小值点的测试误差(如红色虚线所示)更小。

2

模型参数收敛位置的零阶平滑性与一阶平滑性

sharpness-aware minimization(SAM)[3]理论证明了平滑极值点在测试数据上的泛化误差低于尖锐极值点,并进一步提出了优化零阶平滑性,即收敛位置邻域半径(perturbation radius, )内最大损失值与当前损失值的差,如公式1所示。

公式1 零阶平滑性

SAM及其大量后续工作取得了非常好的实践效果,可以显著提升模型的泛化能力。但我们发现零阶平滑性在较大(可以覆盖多个极值点)或在较小(仅覆盖一个极值点)时均存在无法正确识别极值点平滑性的问题。如图4(a)所示,当可以覆盖多个极值点时,左侧极值点附近和右侧极值点附近的零阶平滑性是相同的(如图中ZOF所示),而实则右侧极值点周围更加平滑;如图4(b)所示,当内仅有一个极值点时,由于零阶平滑性关注的是最大损失数值与当前点的比较,而无法捕捉到上升趋势的差异,所以在一些局域内最大损失值较小而上升趋势较大的波谷中零阶平滑性容易出现判断错误的问题。

图4 零阶平滑性(zeroth-order flatness, ZOF)vs 一阶平滑性(first-order flatness, FOF)

基于以上的观察,我们提出一阶平滑性(first-order flatness, FOF)的概念,如公式2所示。相比于零阶平滑性,一阶平滑性关注的是参数邻域内最大的梯度的范数,所以更能捕捉loss的变化趋势。在图4所示的示例中,一阶平滑性可以正确区分左右两侧的波谷附近的平滑性。进一步,由于loss在当前参数邻域内的变化会被邻域内最大的梯度控制,所以保证了一阶平滑性即可以一定程度上控制零阶平滑性。

公式2 一阶平滑性

3

GAM:一阶平滑性优化器

基于一阶平滑性,我们提出了GAM(Gradient norm Aware Minimization)优化算法,GAM在训练过程中同时优化预测误差和邻域内最大梯度的范数。由于邻域内最大的梯度范数无法直接求解,我们通过一次梯度上升来近似该值,近似过程如公式3所示。最终结果可以用Pytorch或Tensorflow中的vector-Hessian products(vhp)进行计算。

公式3 GAM梯度及对一阶平滑性的近似

GAM的完整优化过程如算法1所示。

算法1 GAM优化过程

由于一阶平滑性直接约束邻域内最大梯度范数,所以在损失函数二阶近似下我们很容易得到一阶平滑性与Hessian最大特征值的关系,如公式4所示。Hessian的最大特征值被公认为衡量收敛位置平滑性、曲度的指标,但由于其无法直接优化,所以很多现有工作将其视为平滑性的评价指标,而GAM可以近似约束Hessian的最大特征值。

公式4一阶平滑性与Hessian最大特征值

进一步地,我们可以给出GAM的泛化误差上界,如公式5所示。公式5表明,模型在测试数据上的泛化误差会被其在训练数据上的损失与一阶平滑性控制,所以同时对其进行优化(GAM)即可控制模型的泛化误差。

公式5 GAM的泛化误差上界

我们还可以给出GAM的收敛性质,如公式6所示,GAM的梯度会随着时间T的增加而减小,并逐渐趋近于0。

公式6 GAM的收敛性质,其中C1与C2为常数

4

实验结果

我们分别在CIFAR,ImageNet,Stanford Cars,Oxford_IIIT_Pets等数据集上验证GAM的泛化能力。部分结果如表1与表2所示。

与SGD和AdamW相比,GAM可以显著提升模型的泛化能力,如与SGD相比,GAM可将PyramidNet110在CIFAR-100上的准确率提升2.17%;与AdamW相比,GAM可将Vit-B/32 在ImageNet上的top-1准确率提升2.43%。

另外,与SAM结合后GAM可以进一步提升SAM的泛化能力,这或许是由于SAM和GAM都是用了一系列近似操作(例如泰勒展开)来估计零阶/一阶平滑性,所以SAM和GAM的结合或可以起到互补的作用,降低彼此由于近似估计带来的误差。

表2 GAM在CIFAR10/100 上的结果

表1 GAM在ImageNet上的结果

为了进一步研究GAM对收敛位置平滑性的影响,我们分析了收敛位置Hessian的最大特征值与迹,如图5所示。相比于SGD和SAM,GAM可在训练过程中显著约束Hessian的最大特征值与迹(均为公认平滑性指标),即帮助模型收敛到更加平滑的极值点。

图5 SGD、SAM、GAM Hessian矩阵的最大特征值与迹对比

在CIFAR-100上SGD、SAM、GAM收敛位置的可视化如图6所示,GAM可以显著提升收敛位置的平滑程度,即提升模型的泛化能力。

图6 SGD、SAM、GAM 收敛位置可视化

参考文献

[1] Zhang, Xingxuan, et al. "Gradient norm aware minimization seeks first-order flatness and improves generalization." In CVPR 2023, highlight.

[2] Keskar, Nitish Shirish, et al. "On large-batch training for deep learning: Generalization gap and sharp minima." In ICLR 2017

[3] Foret, Pierre, et al. "Sharpness-aware minimization for efficiently improving generalization." In ICLR 2021, spotlight.

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

最新文章
国产高清精品软件:打造极致视觉体验
为了打造极致视觉体验,这些软件不断进行技术创新。它们采用了先进的算法和优化技术,提高了软件的运行效率和稳定性。通过对用户需求的深入研究,不断完善功能和界面设计,使得软件更加易于使用和操作。用户可以轻松地进行各种设置和调整,
站内优化和站外优化在 SEO 中的区别是什么
在网站优化(SEO)领域中,站内优化和站外优化是两个重要的概念。站内优化指的是对网站自身的结构、内容、技术等方面进行优化,以提高网站的搜索引擎排名。这包括网页标题、网页内容、网页结构、网页加载速度等。通过站内优化,可以让搜索引擎更
青州企业互联网转型升级新动力——专业网站推广优化服务助力前行
青州一家专业网站推广优化公司,致力于帮助企业实现互联网转型升级。通过精准定位、优化策略,助力企业提升品牌知名度,拓宽市场份额,助力企业迈向数字化时代。随着互联网技术的飞速发展,越来越多的企业开始意识到线上推广和网站优化的重
金舟windows优化大师官方版
金舟windows优化大师官方版是一款实用且强大的系统优化软件,它集成了C盘清理、大文件搬家、微信专清等多项功能,可以深入分析用户的电脑的状况,清理系统垃圾文件、临时文件、回收站以及浏览器缓存等无用文件,提高系统性能,从而让电脑运
铁路12306手机售票客户端 v5.8.0.4安卓版
百度CarLife华为版是一款支持手机和车机的车载互联语音出行助手,只需要将软件与汽车进行连接就能直接投屏分享到车载之中实现互联功能,接电话、发短信、听音乐等都可以语音进行操作,在驾驶途中提供方便快捷,解放双手,出行更安全。百度C
百度蜘蛛池租用:清风算法官网蜘蛛池,助力网站优化,提升搜索引擎排名
清风算法官网提供的蜘蛛池租用服务,助力网站优化,有效提升搜索引擎排名,助力企业网络营销。本文目录导读:清风算法官网蜘蛛池简介清风算法官网蜘蛛池的使用方法清风算法官网蜘蛛池的优势随着互联网的快速发展,搜索引擎优化(SEO)成为
迈威尔科技定制HBM解决方案:AI加速器性能大幅提升
近日,迈威尔科技(MRVL.US)宣布其在高带宽内存(HBM)领域的重大突破,将为人工智能处理器带来显著的性能提升。这项创新性的定制HBM解决方案是通过与美光科技、三星及SK海力士等主要内存设计公司的合作,实现的,旨在满足日益增长的AI计
高清美女写真生成神器!体验搜狐简单AI的魅力
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数字化的时代,如何创造出一个完美的‘自己’成了许多人的追求,尤其是想要通过AI技术
网站优化中的内部链接和外部链接?
对于网站优化而言,内部链接和外部链接一定是我们经常接触到的名词,但对于许多刚接触网站的朋友这两个名词可能会有些许陌生,因此,下面就来给大家讲讲这两个我们日后会经常接触到的名词。一、内部链接 指通过用户点击此超链接,将用户从
小米全新智能生活App引领智能生活新时代
小米推出最新款App,引领智能生活革新。该应用致力于提供便捷、智能的服务,为用户带来全新的生活体验。通过先进的科技手段,实现智能家居控制、健康管理、娱乐休闲等功能,让日常生活更加智能化、便捷化。这款App将成为用户智能生活的得力
相关文章
推荐文章
发表评论
0评