[人工智能] 强化学习中贝尔曼等式推导过程中的疑问解答

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 强化学习中贝尔曼等式推导过程中的疑问解答 -> 正文阅读

[人工智能]强化学习中贝尔曼等式推导过程中的疑问解答

作者:recommend-item-box type_blog clearfix

1.贝尔曼等式

$\gamma \sum\limits_{s' \in S} {P(s'|s)V(s')}$ 其中：

$R (s)$ 是Immediate reward
$\gamma \sum\limits_{s' \in S}{P(s'|s)V(s')}$ 是Discounted sum of future reward
$s^{'}$ 是未来的所有状态
$V (s^{'})$ 代表未来某一个状态的价值
$P (s^{'} ∣ s)$ 代表从当前状态转移到未来状态的概率
贝尔曼等式定义了当前状态与未来状态之间的关系

2.基础巩固

条件概率公式： $P (A, B) = P (A B) = P (A ∣ B) P (B) = P (B ∣ A) P (A)$
全概率公式： $\sum\limits_i {P({A_i})P(B|{A_i})}$
贝叶斯公式： $\frac{{P(B|A)P(A)}}{{P(B)}}$

3.全期望公式（LIE）

若 $A_i$ 是样本空间的有限或可数的划分，则全期望公式可表示为： $E\left( X \right) = \sum\limits_i {E\left( {X|{A_i}} \right)P({A_i})}$ 为了简洁，令 $s=s_t$ ， $g'=G_{t+1}$ ， $s'=s_{t+1}$ ，则回报的期望可以表示为： $\mathbb{E}\left[ {{G_{t + 1}}|{s_{t + 1}}} \right] = \mathbb{E}\left[ {g'|s'} \right] = \sum\limits_{g'} {gp(g'|s')}$ 令 $s_t=s$ ，对上式求期望有： $\begin{array}{l}\mathbb{E}\left[ {\mathbb{E}\left[ {{G_{t + 1}}|{s_{t + 1}}} \right]|{s_t}} \right] = \mathbb{E}\left[ {\mathbb{E}\left[ {g'|s'} \right]|s} \right]\\{\rm{ = }}\sum\limits_{s'} {\sum\limits_{g'} {\mathbb{E}\left[ {\mathbb{E}\left[ {g'|s'} \right]} \right]p(g'|s',s)p(s'|s)} } \\{\rm{ = }}\sum\limits_{s'} {\sum\limits_{g'} {\frac{{g'p(g'|s',s)p(s'|s)p(s)}}{{p(s)}}} } \\{\rm{ = }}\sum\limits_{s'} {\sum\limits_{g'} {\frac{{g'p(g'|s',s)p(s',s)}}{{p(s)}}} } \\{\rm{ = }}\sum\limits_{g'} {\sum\limits_{s'} {\frac{{g'p(g',s',s)}}{{p(s)}}} } \\ = \sum\limits_{g'} {\frac{{g'p(g',s)}}{{p(s)}}} \\ = \sum\limits_{g'} {g'p(g'|s)} \\ = \mathbb{E}\left[ {g'|s} \right] = \mathbb{E}\left[ {{G_{t + 1}}|{s_t}} \right]\end{array}$ 即： $\mathbb{E}\left[ {V({s_{t + 1}})|{s_t}} \right] = \mathbb{E}\left[ {\mathbb{E}\left[ {{G_{t + 1}}|{s_{t + 1}}} \right]|{s_t}} \right] = \mathbb{E}\left[ {{G_{t + 1}}|{s_t}} \right]$

4.贝尔曼等式推导

$\begin{array}{l}V(s) = \mathbb{E}\left[ {{G_t}|{s_t} = s} \right]\\ = \mathbb{E}\left[ {{R_{t + 1}} + \gamma {R_{t + 2}} + {\gamma ^2}{R_{t + 3}} + \ldots |{s_t} = s} \right]\\ = \mathbb{E}\left[ {{R_{t + 1}}|{s_t} = s} \right] + \gamma \mathbb{E}\left[ {{R_{t + 2}} + \gamma {R_{t + 3}} + {\gamma ^2}{R_{t + 4}} \ldots |{s_t} = s} \right]\\ = R(s) + \gamma \mathbb{E}\left[ {{G_{t + 1}}|{s_t} = s} \right]\\ = R(s) + \gamma \mathbb{E}\left[ {V({s_{t + 1}})|{s_t} = s} \right]\\ = R(s){\rm{ + }}\gamma \sum\limits_{s' \in S} {P(s'|s)V(s')} \end{array}$ 贝尔曼等式就是当前状态与未来状态的迭代关系，表示当前状态的值函数可以通过下个状态的值函数来计算。