强化学习是无监督学习和有监督学习的结合吗？ - 问答

不！我发现将强化学习与监督学习和无监督学习进行比较是有益的，以便充分理解强化学习问题。但是，我不认为强化学习是监督学习和无监督学习的结合。强化学习与无监督学习在目标方面有所不同。

无监督学习的目的是发现数据点之间的异同。但是，在强化学习问题中，目标是在可能的情况下针对每个特定情况找到良好的行为，行动或标签，以最大程度地提高代理所获得的长期利益。

为了比较强化学习和监督学习，让我们考虑一个学习下棋的代理。

在监督的环境中，设计人员必须在某种情况下提供正确的标签。想象一下，在许多情况下，将正确的动作“给予”代理是多么困难的事。

实际上，作为新手，我无法在许多情况下提供最佳动作。

然而，在强化学习问题中，仅期望设计者提供奖励信号。在国际象棋的情况下，这确实是微不足道的：+1代表赢得比赛，-1代表输掉比赛，否则为0。

然后，代理的工作是将信用分配给导致代理赢得比赛或破坏它的行动！

总而言之，我将无监督学习视为解决完全不同目标的一种技术，并且我将强化学习视为比有监督学习更普遍的问题。不用说，这三个方式都很棒并且很有用。

2021-01-12 12:14 更新

karry • 4540

理工酷