我们应该为Adam优化器做学习率衰减吗?
0 2021
0

我正在使用Adam优化器训练一个用于图像定位的网络,有人建议我使用指数衰减。我不想尝试,因为Adam优化器本身会降低学习速度。我应该这样做吗?有任何理论依据吗?

收藏
2021-02-03 14:57 更新 karry •  4540
共 1 个回答
高赞 时间
0

这个要看情况。ADAM会利用单个学习率来更新参数。这意味着网络中的每个参数都具有特定的关联的学习率。

但是,参数的单个学习率是使用lambda(初始学习率)作为上限来计算的。这意味着每个学习率可以从0(不更新)到lambda(最大更新)之间变化。

学习率在执行训练步骤中会自动调整,这是事实,但是如果你要确保每个更新步骤都不会超过lambda,则可以使用指数衰减或其他方法降低lambda。当与先前关联的lambda参数的损失停止减少时,它就可以帮助减少最新训练步骤的损失。

Via:https://stackoverflow.com/questions/39517431/should-we-do-learning-rate-decay-for-adam-optimizer

收藏
2021-02-03 15:44 更新 anna •  5042