强化学习中，Q-Learning与Sarsa的差别有多大？

4年前更新

3490

本文首发于：行者AI

我相信，从某种意义上讲，强化学习是人工智能的未来。 —— 强化学习之父，Richard Sutton

简单来说就是，智能体通过强化学习，可以知道自己在什么状态下，应该采取什么样的动作使得自身获得最大奖励。强化学习分为在线学习和离线学习，本文以Q-learning(离线)和Sarsa(在线)出发，浅谈两者异同。

1. 简述Q-learning

Q-Learning是强化学习算法中Value-based中的一种算法，Q即为Q(s,a)就是在某一时刻的s状态下(s∈S)，采取动作a (a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

更简单的理解就是我们基于状态s利用 $\varepsilon-greedy$ 法进行贪婪选择出动作a，然后执行动作a，得出下一状态s’以及reward r

Q(s,a) = Q(s,a) + α*(r+γ*{max}(Q(s’,a^*))-Q(s,a))

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐