0
K-摇臂赌博机
K-摇臂赌博机有K个摇臂,赌徒在投入一个硬币之后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖赏,即获得最多的硬币。 k-摇臂赌博机对应了强化学习中的单步强化学习,考虑的是单步奖赏的两个方面:一是需要知道每个动作带来的奖赏,二是要执行奖赏最大的动作。若每个动作对应的奖赏是一个确定值,那么尝试一遍所有的动作便能找出奖赏最大的动作。然而,更一般的情形是,一个动作的奖赏值是来自于一个概率分布,仅通过一次尝试并不能确切的获得平均奖赏值。
K-摇臂赌博机应对策略
仅探索
若仅为获知每个摇臂的期望奖赏,则可采用“仅探索”法:将所有的尝试机会平均分配给每个摇臂机,最后以每个摇臂各自平均吐币概率作为其奖赏期望的近似估计。
仅利用
若仅为执行奖赏最大的动作,则可采用“仅利用”法:按下目前最优的(即到目前为止平均奖赏最大的)摇臂,若有多个摇臂同时为最优,则从中随机选取一个。
两种方法评价比较
显然,“仅探索”法能很好地估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会。“仅利用”相反,它没有很好的估计摇臂的期望奖赏,很可能经常选不到最优摇臂。因此,这两种方法都难以是最终的累计奖赏最大化。 事实上,“探索”(即估计摇臂的优劣)和“利用(即选择当前最优的摇臂)这两者是矛盾的,因为尝试次数(即总投币数)有限,加强了一方则会自然削弱另一方,这就是强化学习所面临的“探索-利用窘境”显然,欲累计奖赏最大,则必须在探索与利用之间达成较好的折中。
收藏