<规划与决策>—MDP、POMDP及其应用

3年前更新

2750

马尔可夫决策过程（Markov Decision Process，MDP）

马尔可夫决策是一种序贯决策的数学模型，用于在具有马尔可夫性的系统中模拟智能体的策略和回报。
如果想要解决一个决策问题，首先简历马尔可夫决策模型，然后可以使用强化学习的算法对其进行求解。最后的结果形式为一组贯序策略： $\begin{array}{l} \pi(\theta)=\left\{\pi_{1}, \pi_{2}, \cdots, \pi_{\tau}\right\} \\ \end{array}$ ，对策略参数 $\theta$ 也即下式，即可得到最优策略。

\theta=\arg \max _{\theta} \mathcal{J}(\theta)

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐