sarsa是on policy

q-learning是off policy
区别在于更新Q值的时候,直接使用了最大的Q(st+1,a),相当于采用了Q(st+1,a)值最大的动作,即与t时刻a动作所采用的policy无关

本文深入探讨了SARSA与Q-Learning两种强化学习算法的区别,重点讲解了它们在更新Q值时的不同策略,SARSA遵循当前策略进行更新,而Q-Learning则选择最大Q值的动作,体现了on-policy与off-policy的本质差异。
sarsa是on policy

q-learning是off policy
区别在于更新Q值的时候,直接使用了最大的Q(st+1,a),相当于采用了Q(st+1,a)值最大的动作,即与t时刻a动作所采用的policy无关

2087
2773
1475

被折叠的 条评论
为什么被折叠?