0
这个要看情况。ADAM会利用单个学习率来更新参数。这意味着网络中的每个参数都具有特定的关联的学习率。
但是,参数的单个学习率是使用lambda(初始学习率)作为上限来计算的。这意味着每个学习率可以从0(不更新)到lambda(最大更新)之间变化。
学习率在执行训练步骤中会自动调整,这是事实,但是如果你要确保每个更新步骤都不会超过lambda,则可以使用指数衰减或其他方法降低lambda。当与先前关联的lambda参数的损失停止减少时,它就可以帮助减少最新训练步骤的损失。
Via:https://stackoverflow.com/questions/39517431/should-we-do-learning-rate-decay-for-adam-optimizer
收藏