《强化学习篇之马尔科夫决策过程》

文章目录

《强化学习篇之马尔科夫决策过程》
前言

前言

强化学习是机器学习的领域之一，其重点是给定的主体在一个环境中，为了获得更大的回报，可能采取的行动。而马尔科夫决策过程是强化学习的基础，其为我们提供了一种形式化的方法——顺序决策。

提示：本系列文章为学习强化学习过程中的笔记梳理，欢迎指正！

一、马尔科夫决策过程（MDPs）是什么？

马尔科夫决策过程全称 markov decision processes，简称MDPs，

1.马尔科夫的由来

马尔科夫来自著名的俄罗斯数学家——安德烈·马尔科夫(Andrey Markov)

在这里插入图片描述
“马尔可夫”通常意味着在当前状态下，未来和过去是独立的。马尔可夫性质是所有现代强化学习算法的存在和成功的基础。

2.MDPs基本内容：

Environment ：交互的环境
Agent：实体决策者
States：所有的可能的环境状态
Actions：实体可以在环境中执行的所有操作
Rewards：实体与环境交互可以从中获得的所有奖励

3.MDPs：

在MDPs中，一个实体决策者与其放置的环境交互，随着时间的推移，相互作用会依次发生。在每一个时间步，实体将获得环境状态的一些表示，然后实体选择要执行的操作，环境随此转换成某种新状态，实体从中得到相应奖励。

在这里插入图片描述
上图很好的说明了马尔科夫决策过程的思想，从给定状态中选择动作的，过渡到新的状态并获得奖励，一次一次的连续发生，形成一种轨迹。这种顺序决策的过程就是马尔科夫决策过程。以下分步说明：

在这里插入图片描述

第一步：在时间t，环境处于状态s_t；
第二步：实体观察当前状态，并选择行动A_t；
第三步：环境转换到状态s_t+1，并授予实体奖励R_t+1；
第四步：以上过程在下一时间步重新开始。

二、马尔科夫决策过程（MDPs）数学表示

在一个MDP中，有一系列的状态 S，一系列的动作 A，一系列的奖励 R。假设这些集合都是有限的，有有限个元素。在时间 t，实体接收环境状态报告S_t,S_t属于状态集合 S。基于该状态，实体选择一个动作A_t，A_t属于状态集合 A。基于这个动作得到状态动作对（S_t,A_t），然后进入下一时间步 t+1，环境也进入新的状态 S_t+1，其也属于属于状态集合 S，并收到奖励 R_t+1，R_t+1属于状态集合 R。我们可以把这个获得奖励的过程当做一个奖励函数，即 f(S_t,A_t)=R_t+1。