马尔可夫决策过程(Markov Decision Process,MDP)
马尔可夫决策是一种序贯决策的数学模型,用于在具有马尔可夫性的系统中模拟智能体的策略和回报。
如果想要解决一个决策问题,首先简历马尔可夫决策模型,然后可以使用强化学习的算法对其进行求解。最后的结果形式为一组贯序策略:,对策略参数也即下式,即可得到最优策略。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
喜欢就支持一下吧
相关推荐
马尔可夫决策是一种序贯决策的数学模型,用于在具有马尔可夫性的系统中模拟智能体的策略和回报。
如果想要解决一个决策问题,首先简历马尔可夫决策模型,然后可以使用强化学习的算法对其进行求解。最后的结果形式为一组贯序策略:,对策略参数也即下式,即可得到最优策略。