优化器是编译Keras模型必要的两个参数之一
可以在调用之前初始化一个优化器对象,然后传入该函数(如上所示),也可以在调用时传递一个预定义优化器名。在后者情形下,优化器的参数将使用默认值。
参数和是所有优化器都可以使用的参数,用于对梯度进行裁剪.示例如下:
随机梯度下降法,支持动量参数,支持学习衰减率,支持Nesterov动量
-
lr:大或等于0的浮点数,学习率
-
momentum:大或等于0的浮点数,动量参数
-
decay:大或等于0的浮点数,每次更新后的学习率衰减值
-
nesterov:布尔值,确定是否使用Nesterov动量
除学习率可调整外,建议保持优化器的其他默认参数不变
该优化器通常是面对递归神经网络时的一个良好选择
-
lr:大或等于0的浮点数,学习率
-
rho:大或等于0的浮点数
-
epsilon:大或等于0的小浮点数,防止除0错误
建议保持优化器的默认参数不变
-
lr:大或等于0的浮点数,学习率
-
epsilon:大或等于0的小浮点数,防止除0错误
建议保持优化器的默认参数不变
-
lr:大或等于0的浮点数,学习率
-
rho:大或等于0的浮点数
-
epsilon:大或等于0的小浮点数,防止除0错误
- Adadelta - an adaptive learning rate method
该优化器的默认值来源于参考文献
-
lr:大或等于0的浮点数,学习率
-
beta_1/beta_2:浮点数, 0<beta<1,通常很接近1
-
epsilon:大或等于0的小浮点数,防止除0错误
- Adam - A Method for Stochastic Optimization
Adamax优化器来自于Adam的论文的Section7,该方法是基于无穷范数的Adam方法的变体。
默认参数由论文提供
-
lr:大或等于0的浮点数,学习率
-
beta_1/beta_2:浮点数, 0<beta<1,通常很接近1
-
epsilon:大或等于0的小浮点数,防止除0错误
- Adam - A Method for Stochastic Optimization
Nesterov Adam optimizer: Adam本质上像是带有动量项的RMSprop,Nadam就是带有Nesterov 动量的Adam RMSprop
默认参数来自于论文,推荐不要对默认参数进行更改。
-
lr:大或等于0的浮点数,学习率
-
beta_1/beta_2:浮点数, 0<beta<1,通常很接近1
-
epsilon:大或等于0的小浮点数,防止除0错误
-
Nadam report
-
On the importance of initialization and momentum in deep learning