[人工智能] 如何理解马尔可夫决策过程？

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 如何理解马尔可夫决策过程？ -> 正文阅读

[人工智能]如何理解马尔可夫决策过程？

1 引言

马尔可夫性：无后效性，指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关；
马尔可夫链(Markov Chain, MC)：系统的下一个状态只与当前状态相关；
马尔可夫决策过程(Markov Decision Process, MDP)：具有马尔可夫性，与MC不同的是MDP还考虑了动作，即系统下个状态不仅和当前的状态有关，也和当前采取的动作有关。
以下棋为例：我们在某个局面（状态 $s_i$ ）走了一步(动作 $a_i$ )，这时对手的选择（导致下个状态 $s_{i+1}$ ）我们是不能确定的，但是他的选择只和 $s_i$ 和 $a_i$ 有关，而不用考虑更早之前的状态和动作。

2 马尔可夫决策过程

一个马尔可夫决策过程可以由一个四元组表示：
$P_{sa}, R) \tag1$

$\{s_1, s_2, \dots, s_k\}$ ：状态集(states)， $s_i$ 表示第 $i$ 步的状态;
$\{a_1, a_2, \dots, a_k\}$ ：一组动作(actions)， $a_i$ 表示第 $i$ 步的动作;
$P_{sa}$ ：状态转移概率，当前 $s_i \in S$ 状态下，经过 $a_i \in A$ 作用后，会转移到的其它状态的概率分布情况，例如比如，在状态 $s_i \in S$ 下执行动作 $a_i \in A$ ，转移到 $s_{i+1} \in S$ 的概率可以表示为 $p(s_{i+1} \vert s_i, a_i)$ ;
$\times A \mapsto \mathbb{R}$ ：回报函数(reward function)，如果回报只与状态有关，可以简化为 $\mapsto \mathbb{R}$ 。如果一组 $s_{i},a_i)$ 转移到了下个状态 $s_{i+1}$ ，那么回报函数可记为 $r(s_{i+1}|s_i, a_i)$ 。如果 $s_i,a_i)$ 对应的下个状态 $s_{i+1}$ 是唯一的，那么回报函数也可以记为 $r(s_i,a_i)$ 。

MDP 的动态过程如下：

智能体(agent)的初始状态为 $s_0$ ;
从 $A$ 中挑选一个动作 $a_0$ 执行，执行后，agent 按 $P_{sa}$ 概率随机转移到了下一个 $s_1$ 状态， $s_1 \in P_{s_0a_0}$ 。
然后再执行一个动作 $a_1$ ，就转移到了 $s_2$ ，接下来再执行 $a_2$ ，…；
可以用下面的图表示状态转移的过程：

在这里插入图片描述
如果回报 $r_i$ 是根据状态 $s_i$ 和动作 $a_i$ 得到的，则MDP可以如图表示：

3 值函数(value function)

增强学习学到的是一个从环境状态到动作的映射（即行为策略），记为策略 $π : S \to A$ 。而增强学习往往又具有延迟回报的特点: 如果在第 $n$ 步输掉了棋，那么只有状态 $s_n$ 和动作 $a_n$ 获得了立即回报 $r(s_n,a_n)=-1$ ，前面的所有状态立即回报均为0。所以对于之前的任意状态 $s$ 和动作 $a$ ，立即回报函数 $r (s, a)$ 无法说明策略的好坏。因而需要定义值函数(value function，又叫效用函数)来表明当前状态下策略 $π$ 的长期影响。

$V^π(s)$ ：策略 $π$ 下，状态 $s$ 的值函数；
$r_i$ ：未来第 $i$ 步的立即回报。

常见的值函数有以下三种：
$V^π(s) = E_{\pi}\left[\sum_{i=0}^{h} r_i \vert s_0 = s \right] \tag2$

$V^π(s) = \lim_{h \rightarrow \infty}E_{\pi}\left[\frac{1}{h}\sum_{i=0}^{h} r_i \vert s_0 = s \right] \tag3$

$V^π(s) = E_{\pi}\left[\sum_{i=0}^{\infty} \gamma^{i} r_i \vert s_0 = s \right] \tag4$
其中：
a) 是采用策略π的情况下未来有限h步的期望立即回报总和；
b) 是采用策略π的情况下期望的平均回报；
c) 是值函数最常见的形式，式中 $γ \in [0, 1]$ 称为折合因子，表明了未来的回报相对于当前回报的重要程度。特别的， $γ = 0$ 时，相当于只考虑立即不考虑长期回报， $γ = 1$ 时，将长期回报和立即回报看得同等重要。

4 对2048游戏的建模

$s_1$ ：初始化状态，随机产生的棋盘；
$a_1$ ：用户连接相同的数字后，系统为棋盘分配新数字的动作；
$s_2$ ：用户选择如何连线后导致的下一个棋盘，该棋盘依然有空缺，需要填充新数字；
$p(s_{2} \vert s_1, a_1)$ ：经过 $a_1$ 操作后状态从 $s_1$ 到 $s_2$ 的概率，这个我觉得可以通过统计得到；
奖励函数：是设计的难点
如何进行训练：也是一个难点

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-03-22 20:35:19 更:2022-03-22 20:38:28

360图书馆购物三丰科技阅读网日历万年历 2025年10日历

-2025/10/19 20:50:19-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码