我们应该为Adam优化器做学习率衰减吗？

0 2021

我正在使用Adam优化器训练一个用于图像定位的网络，有人建议我使用指数衰减。我不想尝试，因为Adam优化器本身会降低学习速度。我应该这样做吗？有任何理论依据吗？

2021-02-03 14:57 更新

karry • 4540

共 1 个回答

高赞时间

这个要看情况。ADAM会利用单个学习率来更新参数。这意味着网络中的每个参数都具有特定的关联的学习率。

但是，参数的单个学习率是使用lambda（初始学习率）作为上限来计算的。这意味着每个学习率可以从0（不更新）到lambda（最大更新）之间变化。

学习率在执行训练步骤中会自动调整，这是事实，但是如果你要确保每个更新步骤都不会超过lambda，则可以使用指数衰减或其他方法降低lambda。当与先前关联的lambda参数的损失停止减少时，它就可以帮助减少最新训练步骤的损失。

Via:https://stackoverflow.com/questions/39517431/should-we-do-learning-rate-decay-for-adam-optimizer

2021-02-03 15:44 更新

anna • 5042

·圈子

位酷友已加入

标签：

计算机算法人工智能

邀请

邀请

邀请

邀请

微信扫码，每周推送最新资料

理工酷