Google Brain新提出的优化器“Lion”,效果要比Adam(W)更好

   日期:2024-12-26    作者:b1247011 移动:http://3jjewl.riyuangf.com/mobile/quote/50678.html

Google Brain新提出的优化器“Lion”,效果要比Adam(W)更好

Google Brain新提出的优化器“Lion”,效果要比Adam(W)更好

与 AdamW 和各种自适应优化器需要同时保存一阶和二阶矩相比,Lion 只需要动量,将额外的内存占用减半。 这在训练大型模型和大Batch size时很有用。 例如,AdamW 需要至少 16 个 TPU V4 芯片来训练图像大小为 224、批量大小为 4,096 的 ViT-B/16,而 Lion 只需要8个。

另一个显而易见的好处是,由于 Lion 的简单性,Lion 在我们的实验中具有更快的运行时间(step/s),通常比 AdamW 和 Adafactor 提速 2-15%,具体取决于任务、代码库和硬件。

2.1 图像分类

2.2 视觉-语言对比训练

2.3 扩散模型

2.4 语言建模

和因式分解相关的参数。 为了确保公平比较,我们使用对数标度为 AdamW (Adafactor) 和我们的 Lion 调整峰值学习率

和解耦权重衰减

。 AdamW 中

的默认值分别设置为 0.9 和 0.999,

,而在 Lion 中,

的默认值

是通过程序搜索过程发现的,分别设置为 0.9 和 0.99。 作者只调整语言任务中的那些超参数,其中

在 AdamW 中,

在 Lion 中。 此外,AdamW 中的

设置为

而不是默认的

,因为它提高了我们实验中的稳定性,类似于 RoBERTa 中的观察结果。

,作为符号操作的结果,因此它具有比其他优化器生成的更大的范数。 根据作者的经验,Lion 的合适学习率通常比 AdamW 小 10 倍,尽管有时小 3 倍的学习率可能表现稍好。 由于有效权重衰减为

,因此用于 Lion 的

值比 AdamW 大 10 倍,以保持相似的强度。 例如,

,

在 Lion 和

,

在 ImageNet 上训练 ViT-B/16 时使用强增强。

,

和 AdamW 中的

,

用于扩散模型。

和 Adafactor 中的

用于 7.5B 语言建模。

。 热图表明,与 AdamW 相比,Lion 对于不同的超参数选择更加稳健。

:批量大小影响的消融实验。 Lion 比 AdamW 更喜欢更大的批次。 当我们为 AdamW(中间)和 Lion()改变


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号