[人工智能] Reinforcement learning an introduction example 6.2 i.e. exercise 6.6

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Reinforcement learning an introduction example 6.2 i.e. exercise 6.6 -> 正文阅读

[人工智能]Reinforcement learning an introduction example 6.2 i.e. exercise 6.6

在第二版的p125中有写道：

Thus, the true values of all the states, A through E, are $\frac{1}{6}$ , $\frac{2}{6}$ , $\frac{3}{6}$ , $\frac{4}{6}$ , and $\frac{1}{6}$ .

那么这些结果哪里来的。在本书大部分的时间里，value可以由Bellman equation获得：
$v_\pi(s) = \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]$

在上式中，我们想要求得的是 $v$ ,但这伴随的未知量还包括p。
对于给定的一个s，四元函数p如果简简单单地记成1，并且把 $\pi$ 也写成0.5的话，并不能获得正确的答案。
因为书中写道，

… then proceed either left or right by one state on each step, with equal probability.

所以 $\pi(a|s)$ 的取值应该没问题，
所以我认为，问题就在于四元函数p

给定了s和动作a，获得相应的s’和r的概率怎么就不是1了呢？换言之，这个里的s’和r难道不一定是立即可能的state和reward的了吗？

我联想到了Exercise 3.14，在那里，书中写道：

… show numerically that this equation holds for the center state, valued at +0.7, with respect to its four neighboring states, valued at …

应用上述的bellman equation，并且结合网上的答案，可以知道，仅就四个周边而言，反推得到的center的value值是：
$\frac{1}{4}\times1\times0.9\times(0.4-0.4+2.3+0.7)=0.675\neq0.7$
我猜测，这个里的误差不仅源于数位保留的缘故(诚如在题干后边写的那样：

These numbers are accurate only to one decimal place.)

还应该在于，这里的四元函数p被默认为1了。这给人一种思考：是不是说，给定同样的状态和动作，并不是邻近的状态平均分享那四元函数？只不过它的比重接近但不一定完全一样而已。

那这样的话，如果有精确的计算，就不准确了。
但好在这个问题有一些好处：

discount = 0
reward = 0 except at the right end.

因此，以E为例， $v_\pi(E)=0.5\times p(R,1| E, \text{rightward})\times(1+1\times1)$ 也就等于
$\text{rightward})$

那么怎么求这个东西呢？
这个问题的一大特点，它是episodic，也就是说对于所有的情况，总共只有两种可能，一个是终结于左端，一个是终结于右端。那这样的情况是容易进行干净的分类讨论的。
参考了网上的答案，可以这样做：
首先，把 $\text{rightward})$ 记作 $P_E(R)$ ，意味终结于右端的那种可能情形；进而，终结于左端的可能情形记作 $P_E(L)$ 。注意，这里求出两种终端情形的概率并不难，巧的是 $P_E(R)$ 正好就是 $\text{rightward})$ 而已。

$P_E(R)+P_E(L) = 1$
进而展开 $P_E(L)$ :
$P_E(L)=P_D(L) \times P_E(D)$
已知 $P_E(D)=0.5$ ，继续展开 $P_D(L)$ :
$P_D(L)=P_D(C) \times P_C(L) + P_D(E) \times P_E(L)$
根据对称性， $P_C(L)=0.5$
又， $P_D(C)=0.5$ ,综上形成闭环。
求得 $P_E(R)=\frac{5}{6}$ 。
因此 $v_\pi(E)=\frac{5}{6}$ 。
根据对称性， $v_\pi(A)=\frac{5}{6}$
接下来，
$P_D(R)=P_D(E) \times P_E(R) + P_D(C) \times P_C(R) =\frac{2}{3} \equiv \frac{4}{6}$
因此 $v_\pi(D)=\frac{4}{6}$ 。
同样根据对称性， $v_\pi(B)=\frac{2}{6}$ 。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-03-24 00:32:32 更:2022-03-24 00:35:12

360图书馆购物三丰科技阅读网日历万年历 2026年3日历

-2026/3/1 19:28:48-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码