马可夫决策过程 Markov decision process

（重定向自Policy iteration）

在概率论和统计学中，马可夫决策过程（英语：Markov Decision Processes，缩写为 MDPs）提供了一个数学架构模型，用于面对部份随机，部份可由决策者控制的状态下，如何进行决策，以俄罗斯数学家安德雷·马尔可夫的名字命名。在经由动态规划与强化学习以解决最佳化问题的研究领域中，马可夫决策过程是一个有用的工具。

马尔可夫过程在概率论和统计学方面皆有影响。一个通过不相关的自变量定义的随机过程，并（从数学上）体现出马尔可夫性质，以具有此性质为依据可推断出任何马尔可夫过程。实际应用中更为重要的是，使用具有马尔可夫性质这个假设来创建模型。在建模领域，具有马尔可夫性质的假设是向随机过程模型中引入统计相关性的同时，当分支增多时，允许相关性下降的少有几种简单的方式。

单词	Policy iteration
释义	Policy iteration 中文百科马可夫决策过程 Markov decision process （重定向自Policy iteration）在概率论和统计学中，马可夫决策过程（英语：Markov Decision Processes，缩写为 MDPs）提供了一个数学架构模型，用于面对部份随机，部份可由决策者控制的状态下，如何进行决策，以俄罗斯数学家安德雷·马尔可夫的名字命名。在经由动态规划与强化学习以解决最佳化问题的研究领域中，马可夫决策过程是一个有用的工具。马尔可夫过程在概率论和统计学方面皆有影响。一个通过不相关的自变量定义的随机过程，并（从数学上）体现出马尔可夫性质，以具有此性质为依据可推断出任何马尔可夫过程。实际应用中更为重要的是，使用具有马尔可夫性质这个假设来创建模型。在建模领域，具有马尔可夫性质的假设是向随机过程模型中引入统计相关性的同时，当分支增多时，允许相关性下降的少有几种简单的方式。英语百科 Markov decision process 马可夫决策过程（重定向自Policy iteration） Markov decision processes (MDPs) provide a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for studying a wide range of optimization problems solved via dynamic programming and reinforcement learning. MDPs were known at least as early as the 1950s (cf. Bellman 1957). A core body of research on Markov decision processes resulted from Ronald A. Howard's book published in 1960, Dynamic Programming and Markov Processes. They are used in a wide area of disciplines, including robotics, automated control, economics, and manufacturing.
随便看	fazey的意思 Fazeï的意思 Fazil的意思 fazila的意思 fazilas的意思 Fazilet的意思 Fazilka的意思 faze的意思 Fazio的意思 fazio londc disease的意思 Fazio Londe atrophy的意思 Fazio Londe disease的意思 Fazio Londe syndrome的意思 Fazio Londe type的意思 Fazl的意思 fazle的意思 Fazli的意思 fazls的意思 Fazlullah的意思 fazlur的意思 fazoli的意思 fazool的意思 fazotorn的意思 fazotron的意思 Fazrān的意思

Policy iteration

马可夫决策过程 Markov decision process

Markov decision process 马可夫决策过程