AdamWR优化器与余弦学习率调度器使用指南
具有单周期学习率时间表的AdamW的Tensorflow 2.3实现
基于S.Gugger和J.Howard在这里的帖子: :
用法
optimiser = OneCycleAdamW(learning_rate: float, weight_decay: float, cycle_length: int)
学习率:在周期峰值时使用的最大学习率。 学习率将逐渐上升,然后下降
重量衰减:要应用的重量衰减。 这将遵循与学习率相同的时间表
周期长度:完成“一个周期”策略的步骤数。 在“ cycle_length”之后,学习率将呈指数递减的趋近于零。
经过测试:
Python 3.8
张量流2.3
张量流数据集4.2.0
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。