更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

日期：2024-12-29 作者：b1247569 移动：http://3jjewl.riyuangf.com/mobile/quote/80895.html

机器之心专栏

机器之心编辑部

深度神经网络（DNNs）的泛化能力与极值点的平坦程度密切相关，因此出现了 Sharpness-Aware Minimization (SAM) 算法来寻找更平坦的极值点以提高泛化能力。本文重新审视 SAM 的损失函数，提出了一种更通用、有效的方法 WSAM，通过将平坦程度作为正则化项来改善训练极值点的平坦度。通过在各种公开数据集上的实验表明，与原始优化器、SAM 及其变体相比，WSAM 在绝大多数情形都实现了更好的泛化性能。WSAM 在蚂蚁内部数字支付、数字金融等多个场景也被普遍采用并取得了显著效果。该文被 KDD '23 接收为 Oral Paper。

随着深度学习技术的发展，高度过参数化的 DNNs 在 CV 和 NLP 等各种机器学习场景下取得了巨大的成功。虽然过度参数化的模型容易过拟合训练数据，但它们通常具有良好的泛化能力。泛化的奥秘受到越来越多的关注，已成为深度学习领域的热门研究课题。

最近的研究表明，泛化能力与极值点的平坦程度密切相关，即损失函数“地貌”中平坦的极值点可以实现更小的泛化误差。Sharpness-Aware Minimization (SAM) [1] 是一种用于寻找更平坦极值点的技术，是当前最有前途的技术方向之一。它广泛应用于各个领域，如 CV、NLP 和 bi-level learning，并在这些领域明显优于原先最先进的方法。

为了探索更平坦的最小值，SAM 定义损失函数 L 在 w 处的平坦程度如下：

WSAM 的设计细节

2分钟版本

13分钟版本

[1] Pierre Foret et al. Sharpness-aware Minimization for Efficiently Improving Generalization. ICLR '21.

[2] Juntang Zhuang et al. Surrogate Gap Minimization Improves Sharpness-Aware Training. ICLR '22.

[3] Jiawei Du et al. Efficient Sharpness-aware Minimization for Improved Training of Neural Networks. ICLR '22.

[4] Jungmin Kwon et al. ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning of Deep Neural Networks. ICML '21.

[5] Minyoung Kim et al. Fisher SAM: Information Geometry and Sharpness Aware Minimisation. ICML '22.

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行