<规划与决策>—MDP、POMDP及其应用

马尔可夫决策过程(Markov Decision Process,MDP)

马尔可夫决策是一种序贯决策的数学模型,用于在具有马尔可夫性的系统中模拟智能体的策略和回报。
如果想要解决一个决策问题,首先简历马尔可夫决策模型,然后可以使用强化学习的算法对其进行求解。最后的结果形式为一组贯序策略:π(θ)={π1,π2,,πτ}\begin{array}{l} \pi(\theta)=\left\{\pi_{1}, \pi_{2}, \cdots, \pi_{\tau}\right\} \\ \end{array},对策略参数θ\theta也即下式,即可得到最优策略。

θ=argmaxθJ(θ)\theta=\arg \max _{\theta} \mathcal{J}(\theta)

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享