开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【机器学习】白板推导系列(三十四) ～强化学习之马尔科夫决策过程 -> 正文阅读

[人工智能]【机器学习】白板推导系列(三十四) ～强化学习之马尔科夫决策过程

【机器学习】白板推导系列(三十四) ～强化学习之马尔科夫决策过程

背景介绍

Random Variable

随机变量：用大写字母代表随机变量，如 $X$ ， $Y$ 。

$X$ 和 $Y$ 之间相互独立，记作 $\bot Y$ 。

Stochastic Process

随机过程：研究的不在是单个的随机变量，而是一组随机变量。并且这一组随机变量之间存在着一种非常紧密的关系（不相互独立）。

符号表示： $S_t, S_{t+1},S_{t+2}, \dots$ ， $\lbrace S_t \rbrace ^\infty_{t=1}$

Markov Chain/Process

马尔科夫链（马尔科夫过程）：一种特殊的随机过程，是具备马尔科夫属性（Markov Property）的随机过程。

下一个时刻仅依赖于当前时刻。

符号表示： $P(S_{t+1}) \mid S_t,S_{t-1}...S_1) = P(S_{t+1} \mid S_t)$

State Space Model

状态空间模型：（HMM,Kalman Filterm Particle Filter），马尔可夫链 + 观测变量（Markov Chain + Obervation）。

挂测独立假设：观测变量跟当前状态有关，跟之前状态无关。

Markov Reward Process

（Markov Chain + Reward ）

Markov Decision Process

（Markov Reward Process + Action）

$\mathcal{S}: \text{state set.} \rightarrow S_t$

$\mathcal{A}: \text{action set.} \forall s \in \mathcal{S}, \mathcal{A}(s) \rightarrow A_t$

$\mathcal{R}: \text{reward set.}, \rightarrow R_t. R_{t + 1}$

在这里插入图片描述

如上图： $S_t$ 用来表示某一个时刻的状态。 $A_{(s)}$ 表示在某一个状态时候的行为。从 $S_t$ 状态经过 $A_t$ 到 $S_{t+1}$ 状态，获得的奖励记作 $R_{(t+1)}$ 。

动态特性

在这里插入图片描述

Markov Chain: $\mathcal{S}$

MRP: $\mathcal{S}, \mathcal{R}$

MDP: $\mathcal{S}, \mathcal{R}, \mathcal{A}(s), \mathcal{P}$

马尔可夫链只有一个量——状态。

描述其动态特性：状态转移矩阵

$\begin{bmatrix} s_1s_1 &... & s_1s_{10} \\ \vdots & \ddots & \vdots \\ s_{10}s_1 & ... & s_{10}s_{10} \end{bmatrix}$

在状态转移的过程中，对于下一个状态转移是有概率的，

动态特性： $p(s',r\mid s,a) \dot{=} P_r\lbrace S_{t+1}=s',R_{t+1} = r \mid S_{t} =s,A_{t}=a \rbrace$

状态转移函数（去掉了 $r$ ）： $p(s'\mid s,a) = \sum\limits_{r\in R} p(s'\mid s,a)$

reward的动态性：在 $s$ 和 $a$ 选定后， $r$ 也有可能是不同的，即 $r$ 也是随机变量。但是，大多数情况 $r$ 随机性不怎么明显。

价值函数

策略（Policy）

符号表示： $\pi$

确定性策略: $\triangleq \pi(s)$
随机性策略: $\pi(a \mid s) \triangleq P_r{A_t = a |S_t = s}$

回报

多个reward的加和

会引入一个折扣（discount）

$G_t = R_{t + 1} + \gamma R_{t + 2} + \gamma ^2 \dots + \gamma ^{T - 1} R_T = \sum\limits_{i = 0} \gamma ^ i R_{t + i + 1}, \gamma |in [0, 1], T \rightarrow \infty$

但是这里的 $G_t$ 仅代表了其中一系列确定的策略，但是策略会是一个随机性策略，所以这时候引入价值函数。

价值函数

在指定一个状态 $s$ ，采取一个随机策略 $\pi$ ，然后加权平均，以上图为例，把9 个分叉( $G_t$ )加权平均。也就是期望 $E$ 。

$V_\pi(s) = \mathbb{E}_\pi[G_t \mid S_t = s]$

$G_t$ 在 $\pi$ 上的加权平均。

贝尔曼期望方程

MDP： $\mathcal{S}, \mathcal{A}(s), \mathcal{R}, \mathcal{P}$
$\begin{cases} p(s',r\mid s,a) \triangleq P_r\lbrace S_{t+1}=s',R_{t+1} = r \mid S_{t} =s,A_{t}=a \rbrace \end{cases}$

$\begin{cases} a \triangleq \pi(s), & \text{确定性策略} \\ \pi(a\mid s) \triangleq P_r \lbrace A_t=a \mid S_t = s \rbrace, & \text{随机性策略} \end{cases}$

$\text{Value Function} = \begin{cases} V_\pi(s) & \triangleq \mathbb{E}_\pi[G_t \mid S_t = t], &\text{状态价值函数}\\ q_\pi(s, a) & \triangleq \mathbb{E}_\pi[G_t \mid S_t = s, A_t = a], &\text{状态动作价值函数} \end{cases}$

关系：

$V_\pi(s) = \sum_{a\in \mathcal{A}} \pi(a\mid s) \cdot q_\pi(s,a) \leq q_\pi(s,a)$

$q_\pi(s,a) = \sum\limits_{r, s'}p(s', r \mid s, a)[r + \gamma v_\pi(s')]$

贝尔曼期望方程：

$v_\pi(s) = \sum\limits_{a \in \mathcal{A}} \pi(a \mid s) \sum\limits_{s', r}p(s', r \mid s, a)[r + \gamma v_\pi(s')]$

$q_\pi(s, a) = \sum\limits_{s', r}(s', r \mid s, a)[r + \gamma \sum\limits_{a'} \pi(a' \mid s')q_\pi(s', a')]$

贝尔曼最优方程

最优化价值函数：
$\begin{cases} V_*(s) \triangleq \max\limits_{\pi} V_\pi(s) \\ q_*(s,a) \triangleq \max\limits_{\pi} q_\pi(s, a) \end{cases}$
记
$\pi_* = \arg \max\limits_{\pi}V_\pi(s) = \arg \max\limits_{\pi}q_{\pi*}(s, a)$