IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 强化学习二-举例理解概念 -> 正文阅读

[人工智能]强化学习二-举例理解概念

MDP(离散型)概念理解(二)

一、说明基础概念

假设一个节点得状态空间为 S = { 0 , 1 , 2 , 3 , . . . , 13 } S=\{0,1,2,3,...,13\} S={0,1,2,3,...,13},动作空间为 A = { ? 2 , ? 1 , 0 , 1 , 2 } A=\{-2,-1,0,1,2\} A={?2,?1,0,1,2},其中初始得一个策略为
π ( a ∣ s ) = { 0.8 , s < = 5 , ? I m a x ≤ a < 0 0.2 s < = 5 , a = 0 0.8 5 < s < Z v ? 5 , a = 0 0.1 5 < s < Z v ? 5 , a < 0 0.1 5 < s < Z v ? 5 , a > 0 0.8 Z v ? 5 ≤ s < Z v , 0 < a ≤ I m a x 0.2 Z v ? 5 ≤ s < Z v , a = 0 \pi(a|s)=\begin{cases}0.8,&s<=5 ,-I_{max}\leq a <0\\ 0.2 & s<=5, a=0\\ 0.8 &5<s<Z_v-5,a=0 \\ 0.1 & 5<s<Z_v-5,a<0\\ 0.1 &5<s<Z_v-5,a>0 \\ 0.8 & Z_v-5\leq s<Z_v,0<a\leq I_{max}\\ 0.2 & Z_v-5 \leq s <Z_v,a=0\end{cases} π(as)=????????????????????????0.8,0.20.80.10.10.80.2?s<=5,?Imax?a<0s<=5,a=05<s<Zv??5,a=05<s<Zv??5,a<05<s<Zv??5,a>0Zv??5s<Zv?,0<aImax?Zv??5s<Zv?,a=0??

注意到,这里得假设 Z v = 13 , I m a x = 2 Z_v=13,I_{max}=2 Zv?=13,Imax?=2 ,具体的用示意图1表示为:
在这里插入图片描述

1.1 状态转移概率

  • 公式: P s s ′ a = E ( S t + 1 ∣ S t = s , A t = a ) P^a_{ss'}=E(S_{t+1}|S_t=s,A_t=a) Pssa?=E(St+1?St?=s,At?=a),在当前状态s,动作a下的转移到状态s’的概率期望
  • 举例: P 4 , 8 0 = P ( S t + 1 = 8 ∣ S t = 5 , a t = 0 ) = 0.05 P^0_{4,8}=P(S_{t+1}=8|S_t=5,a_t=0)=0.05 P4,80?=P(St+1?=8St?=5,at?=0)=0.05,在当前状态为4,动作为0,转移到状态为8的概率
    P 4 , 8 = 0. 2 ( a = 0 ) × 0.05 + 0. 4 ( a = ? 1 ) × 0.1 + 0. 4 ( a = ? 2 ) × 0.1 + 0 ( a = 1 ) + 0 ( a = 2 ) = 0.09 P_{4,8}=0.2_{(a=0)}\times 0.05 +0.4_{(a=-1)}\times 0.1 +0.4_{(a=-2)}\times0.1 +0_{(a=1)}+0_{(a=2)}=0.09 P4,8?=0.2(a=0)?×0.05+0.4(a=?1)?×0.1+0.4(a=?2)?×0.1+0(a=1)?+0(a=2)?=0.09。在当前状态为4,不知道动作,转移到状态为8,的概率期望

1.2 报酬

  • 即时报酬: R s s ′ a R^a_{ss'} Rssa?:在当前状态s下,执行动作a后,转移到状态s’后,得到的报酬。假设我们报酬为完成的自行车行程数量。在单个节点中,我们利用“出量+进量之和”作为该动作的报酬。如上: R 48 0 = 6 ( 走 了 1 辆 车 , 来 了 5 辆 车 ) R^0_{48}=6(走了1辆车,来了5辆车) R480?=6(15)

  • 动作报酬期望: R s a = ∑ s ′ ∈ S P s s ′ a R s s ′ a R^a_s=\sum_{s'\in S}P^a_{ss'}R^a_{ss'} Rsa?=sS?Pssa?Rssa?.举例则 R s = 4 a = 0 = 0.0 5 s ′ = 1 ? 3 + 0. 1 s ′ = 2 ? 2 + 0. 2 s ′ = 3 ? 3 + 0. 1 s ′ = 5 ? 3 + 0. 1 s ′ = 6 ? 4 + 0.0 5 s ′ = 7 ? 3 + 0.0 5 s ′ = 8 ? 6 + 0.0 5 s ′ = 9 ? 5 = 0.15 + 0.2 + 0.6 + 0.3 + 0.4 + 0.15 + 0.3 + 0.45 = 2.55 \begin{aligned}&R_{s=4}^{a=0}\\&=0.05_{s'=1}*3+0.1_{s'=2}*2+0.2_{s'=3}*3+0.1_{s'=5}*3+0.1_{s'=6}*4+0.05_{s'=7}*3+0.05_{s'=8}*6+0.05_{s'=9}*5\\&=0.15+0.2+0.6+0.3+0.4+0.15+0.3+0.45\\&=2.55\end{aligned} ?Rs=4a=0?=0.05s=1??3+0.1s=2??2+0.2s=3??3+0.1s=5??3+0.1s=6??4+0.05s=7??3+0.05s=8??6+0.05s=9??5=0.15+0.2+0.6+0.3+0.4+0.15+0.3+0.45=2.55?

    R s = 4 a = 1 = 0.05 ? 1 + 0.1 ? 4 + 0.1 ? 3 + 0.1 ? 4 + 0.1 ? 5 + 0.1 ? 6 + 0.1 ? 7 + 0.1 ? 8 + 0.05 ? 9 = 4.2 \begin{aligned} &R^{a=1}_{s=4}\\&=0.05*1+0.1*4+0.1*3+0.1*4+0.1*5+0.1*6+0.1*7+0.1*8+0.05*9=4.2\end{aligned} ?Rs=4a=1?=0.05?1+0.1?4+0.1?3+0.1?4+0.1?5+0.1?6+0.1?7+0.1?8+0.05?9=4.2?

    R s = 4 a = 2 = R s = 4 a = ? 1 = R s = 4 a = ? 2 = 4.2 R^{a=2}_{s=4}=R^{a=-1}_{s=4}=R^{a=-2}_{s=4}=4.2 Rs=4a=2?=Rs=4a=?1?=Rs=4a=?2?=4.2

  • 策略报酬期望: R s π = ∑ a ∈ A π ( a ∣ s ) R s a R_s^{\pi}=\sum_{a\in A}\pi(a|s)R_s^a Rsπ?=aA?π(as)Rsa?

    R s = 4 π = π ( a = ? 1 ∣ 4 ) ? R 4 ? 1 + π ( a = ? 2 ∣ 4 ) R 4 ? 2 + π ( 0 ∣ 4 ) ? R 4 0 + π ( 1 ∣ 4 ) ? R 4 1 + π ( 2 ∣ 4 ) R 4 2 = 0. 4 ( a = ? 1 ) ? 4.2 + 0. 4 ( a = ? 2 ) ? 4.2 + 0. 2 ( a = 0 ) ? 2.55 + 0 + 0 = 3.87 \begin{aligned}R^{\pi}_{s=4}&=\pi(a=-1|4)*R^{-1}_4+\pi(a=-2|4)R^{-2}_4+\pi(0|4)*R^0_4+\pi(1|4)*R^1_4+\pi(2|4)R^2_4\\&=0.4_{(a=-1)}*4.2+0.4_{(a=-2)}*4.2+0.2_{(a=0)}*2.55+0+0=3.87\end{aligned} Rs=4π??=π(a=?14)?R4?1?+π(a=?24)R4?2?+π(04)?R40?+π(14)?R41?+π(24)R42?=0.4(a=?1)??4.2+0.4(a=?2)??4.2+0.2(a=0)??2.55+0+0=3.87?

1.3 两个价值函数

1.3.1 状态价值函数(或累积回报函数)

是对当前状态的s=4的价值判断。

公式为: V π ( s ) = s u m a ∈ A π ( a ∣ s ) { R s s ′ a + γ ∑ s ′ ∈ S V π ( s ′ ) } V^{\pi}(s)=sum_{a\in A}\pi(a|s)\{R^a_{ss'}+\gamma\sum_{s'\in S} V^{\pi}(s')\} Vπ(s)=sumaA?π(as){Rssa?+γsS?Vπ(s)}

举例为:

V π ( s = 4 ) = s u m a ∈ { ? 2 , ? 1 , 0 , 1 , 2 } π ( a ∣ s ) V^{\pi}(s=4)=sum_{a\in \{-2,-1,0,1,2\}}\pi(a|s) Vπ(s=4)=suma{?2,?1,0,1,2}?π(as)? { R 4 a + γ ∑ s ′ ∈ { 0 , . . . , 13 } P 4 s ′ a V π ( s ′ ) } \{R^a_4+\gamma \sum_{s'\in \{0,...,13 \}}P^a_{4s'}V^{\pi}(s') \} {R4a?+γs{0,...,13}?P4sa?Vπ(s)}??

= 0.2 ? =0.2* =0.2????????????? ( R 4 0 + γ × (R^0_4+\gamma \times (R40?+γ× [ 0.05 × V π ( 1 ) + 0.1 × V π ( 2 ) + 0.3 × V π ( 30 ) 0.1 × V π ( 5 ) + 0.1 × V π ( 6 ) + 0.05 × ( V π ( 7 ) ) + V π ( 8 ) + V π ( 9 ) ] [0.05\times V^{\pi}(1)+0.1\times V^{\pi}(2)+0.3\times V^{\pi}(30)0.1\times V^{\pi}(5)+0.1\times V^{\pi}(6)+0.05\times (V^{\pi}(7))+V^{\pi}(8)+V^{\pi}(9)] [0.05×Vπ(1)+0.1×Vπ(2)+0.3×Vπ(30)0.1×Vπ(5)+0.1×Vπ(6)+0.05×(Vπ(7))+Vπ(8)+Vπ(9)]?????????????)

+ 0.4 ? +0.4* +0.4?????? ( R 4 ? 2 + γ × (R^{-2}_4+\gamma \times (R4?2?+γ×??

[ 0.05 × V π ( 3 ) + 0.1 × ( V π ( 4 ) + V π ( 5 ) + V π ( 6 ) + V π ( 7 ) + V π ( 8 ) + V π ( 9 ) + V π ( 10 ) + V π ( 11 ) + V π ( 12 ) ) + 0.05 × V π ( 13 ) ] [0.05\times V^{\pi}(3)+0.1\times (V^{\pi}(4)+V^{\pi}(5)+V^{\pi}(6)+V^{\pi}(7)+V^{\pi}(8)+V^{\pi}(9)+V^{\pi}(10)+V^{\pi}(11)+V^{\pi}(12))+0.05\times V^{\pi}(13) ] [0.05×Vπ(3)+0.1×(Vπ(4)+Vπ(5)+Vπ(6)+Vπ(7)+Vπ(8)+Vπ(9)+Vπ(10)+Vπ(11)+Vπ(12))+0.05×Vπ(13)]??
+ 0.4 ? +0.4* +0.4??? ( R 4 ? 1 + γ × (R^{-1}_4+\gamma \times (R4?1?+γ×??
[ 0.05 × V π ( 3 ) + 0.1 × ( V π ( 4 ) + V π ( 5 ) + V π ( 6 ) + V π ( 7 ) + V π ( 8 ) + V π ( 9 ) + V π ( 10 ) + V π ( 11 ) + V π ( 12 ) ) + 0.05 × V π ( 13 ) ] [0.05\times V^{\pi}(3)+0.1\times (V^{\pi}(4)+V^{\pi}(5)+V^{\pi}(6)+V^{\pi}(7)+V^{\pi}(8)+V^{\pi}(9)+V^{\pi}(10)+V^{\pi}(11)+V^{\pi}(12))+0.05\times V^{\pi}(13) ] [0.05×Vπ(3)+0.1×(Vπ(4)+Vπ(5)+Vπ(6)+Vπ(7)+Vπ(8)+Vπ(9)+Vπ(10)+Vπ(11)+Vπ(12))+0.05×Vπ(13)]

1.3.2 Q函数(状态动作函数)

对当前状态-动作的价值判断

公式为: Q π ( s , a ) = R S a + γ ∑ s ′ ∈ S P s s ′ a ∑ a ′ ∈ S π ( a ∣ s ) Q π ( s ′ , a ′ ) Q^{\pi}(s,a)=R^a_S+\gamma\sum_{s'\in S}P^a_{ss'}\sum_{a'\in S}\pi(a|s)Q^{\pi}(s',a') Qπ(s,a)=RSa?+γsS?Pssa?aS?π(as)Qπ(s,a)
举例略()

1.3.3 Q函数与值函数的关系

V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V^{\pi}(s)=\sum_{a\in A}\pi(a|s)Q^{\pi}(s,a) Vπ(s)=aA?π(as)Qπ(s,a)

Q π ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a V π ( s ′ ) Q^{\pi}(s,a)=R^a_s+\gamma \sum_{s'\in S}P^a_{ss'}V^{\pi}(s') Qπ(s,a)=Rsa?+γsS?Pssa?Vπ(s)

1.4最优价值函数

  1. 最优状态价值函数:是所有策略下产生的众多状态价值函数中的最大者,即: V ? ( s ) = max ? π V π ( s ) V^*(s)=\max_{\pi}V^{\pi}(s) V?(s)=maxπ?Vπ(s)

  2. 最优董总价值函数:是所有策略下产生的众多动作状态价值函数中的最大者,即: Q ? ( s , a ) = max ? π Q π ( s , a ) Q^*(s,a)=\max_{\pi} Q^{\pi}(s,a) Q?(s,a)=maxπ?Qπ(s,a)

  3. 最优策略,基于动作价值函数可以定义胃:

    π ? ( a ∣ s ) = { 1 , i f a = arg ? m a x a ∈ A Q ? ( s , a ) 0 , e l s e \pi^*(a|s)=\begin{cases}1,& if \quad a=\arg max_{a\in A}Q^*(s,a)\\0,&else\end{cases} π?(as)={1,0,?ifa=argmaxaA?Q?(s,a)else?

  4. 只要我们找到了最大的状态价值函数或者动作价值函数,那么对应的策略 π ? \pi^* π??就是我们强化学习问题的解。

1.5 Bellman最优方程

可以根据最优价值函数的定义,可以推到其bellman方程形式

  1. 最优状态价值函数 : V ? ( s ) = max ? π V π ( s ) V^*(s)=\max_{\pi} V^{\pi}(s) V?(s)=maxπ?Vπ(s)

    V ? ( s ) = max ? π V π ( s ) 对 不 同 策 略 取 的 V 值 取 最 大 = max ? π ( ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) ) 代 入 V 值 与 Q 值 得 关 系 = max ? π max ? a ∈ A Q π ( s , a ) 上 一 行 是 动 作 状 态 得 期 望 , 此 行 是 动 作 状 态 得 最 值 = max ? a ∈ A Q ? ( s , a ) 调 换 两 个 m a x , 逆 用 最 优 状 态 动 作 值 函 数 \begin{aligned}V^*(s) &=\max_{\pi} V^{\pi}(s) \quad &对不同策略取的V值取最大\\&=\max_{\pi}(\sum_{a\in A}\pi(a|s)Q^{\pi}(s,a)) &代入V值与Q值得关系\\&=\max_{\pi} \max_{a\in A}Q^{\pi}(s,a) &上一行是动作状态得期望,此行是动作状态得最值\\&=\max_{a\in A}Q^*(s,a) &调换两个max,逆用最优状态动作值函数 \end{aligned} V?(s)?=πmax?Vπ(s)=πmax?(aA?π(as)Qπ(s,a))=πmax?aAmax?Qπ(s,a)=aAmax?Q?(s,a)?VVQmax,?

    1.1 π ( a ∣ s ) ∈ [ 0 , 1 ] , 且 ∑ a ∈ A π ( a ∣ s ) = 1 \pi(a|s)\in [0,1],且\sum_{a\in A}\pi (a|s)=1 π(as)[0,1],aA?π(as)=1

    1.2 ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) \sum_{a\in A}\pi(a|s)Q^{\pi}(s,a) aA?π(as)Qπ(s,a)得最大值:

    1. 假设在状态s下执行动作 a ? a^* a??时, Q π ( s , a ? ) Q_{\pi}(s,a^*) Qπ?(s,a?)?得值最大, Q π ( s , a ? ) ≥ Q π ( s , a ) , a ∈ A Q_{\pi}(s,a^*)\geq Q_{\pi}(s,a) ,a\in A Qπ?(s,a?)Qπ?(s,a),aA?
  2. 最优行为价值函数: Q ? ( s , a ) = max ? π Q π ( s , a ) Q^*(s,a)=\max_{\pi} Q^{\pi}(s,a) Q?(s,a)=maxπ?Qπ(s,a)
    Q ? ( s , a ) = max ? π Q π ( s , a ) 对 不 同 策 略 固 定 得 a 取 Q 最 值 = max ? π ( R s s ′ a + γ ∑ s ′ ∈ S P s s ′ a V π ( s ′ ) ) 带 入 Q 值 与 V 值 得 关 系 = R s a + γ ∑ s ′ ∈ S P s s ′ a V ? ( s ′ ) m a x 进 去 后 , 逆 用 最 优 状 态 值 函 数 \begin{aligned} Q^*(s,a)&=\max_{\pi} Q^{\pi}(s,a) \quad & 对不同策略固定得a取Q最值\\&=\max_{\pi}(R^a_{ss'}+\gamma \sum_{s'\in S}P^a_{ss'}V^{\pi}(s')) &带入Q值与V值得关系\\&=R^a_s+\gamma \sum_{s'\in S}P^a_{ss'}V^*(s') &max进去后,逆用最优状态值函数 \end{aligned} Q?(s,a)?=πmax?Qπ(s,a)=πmax?(Rssa?+γsS?Pssa?Vπ(s))=Rsa?+γsS?Pssa?V?(s)?aQQVmax?
    3. Q ? ( s , a ) 和 V ? ( s ) Q^*(s,a)和V^*(s) Q?(s,a)V?(s)的递推表达式为:

V ? ( s ) = max ? a ∈ A ( R S a + γ ∑ s ′ ∈ S P s s ′ a V ? ( s ′ ) ) V^*(s)=\max_{a\in A}(R^a_S+\gamma \sum_{s'\in S}P^a_{ss'}V*(s')) V?(s)=aAmax?(RSa?+γsS?Pssa?V?(s))?
Q ? ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a max ? a ∈ A Q ? ( s ′ , a ′ ) Q^*(s,a)=R^a_s+\gamma \sum_{s'\in S}P^a_{ss'}\max_{a\in A}Q^*(s',a') Q?(s,a)=Rsa?+γsS?Pssa?aAmax?Q?(s,a)

二、 常用案例迭代

这里时一个常用的MDP的案例。figq为原始案例图以及初值表示;fig2表示计算后的结果
在这里插入图片描述
注意:这里认为当下的策略是最优策略,没有对策略进行取最大值的步骤。此外,为方便计算折扣因子 γ = 1 \gamma=1 γ=1
我们根据最优Q*的迭代说明一下
Q ? ( s , a ) = max ? π Q π ( s , a ) Q^*(s,a)=\max_{\pi}Q^{\pi}(s,a) Q?(s,a)=maxπ?Qπ(s,a), V ? ( s ) = max ? π V π ( s ) \quad V^*(s)=\max_{\pi}V^{\pi}(s) V?(s)=maxπ?Vπ(s)

  • 公式为:
  • Q ? ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a max ? a ∈ A Q ? ( s ′ , a ′ ) Q^*(s,a)=R^a_s+\gamma \sum_{s'\in S}P^a_{ss'}\max_{a\in A}Q^*(s',a') Q?(s,a)=Rsa?+γsS?Pssa?maxaA?Q?(s,a)
  • V ? ( s ) = max ? a ∈ A ( R S a + γ ∑ s ′ ∈ S P s s ′ a V ? ( s ′ ) ) V^*(s)=\max_{a\in A}(R^a_S+\gamma \sum_{s'\in S}P^a_{ss'}V*(s')) V?(s)=maxaA?(RSa?+γsS?Pssa?V?(s))
  • ∑ s ′ \sum_{s'} s? ,s‘是对当前状态s和动作a后产生的下一状态,任意状态都有 P s s ′ a P^a_{ss'} Pssa?的概率发生,所以要求和
  • R s a R^a_{s} Rsa?是当下的动作的即时报酬
  • γ \gamma γ是下一状态动作的折扣因子
  • max ? a ′ Q ? ( s ′ , a ′ ) \max_{a'}Q^*(s',a') maxa?Q?(s,a):对未来状态s’,进行采取动作a’的最大动作-状态的报酬(值函数)

Q ? ( s , a ) Q^*(s,a) Q?(s,a)迭代过程:

  1. 方块是终点,所以迭代的初始值函数为0
    • Q ? ( S 4 , s t u d y ) = 10 , Q ? ( S 3 , s l e e p ) = 0 Q^*(S_4,study)=10,\quad Q^*(S_3,sleep)=0 Q?(S4?,study)=10,Q?(S3?,sleep)=0
    • Q ? ( S 4 , p u b ) = 1 + 0.2 × max ? a ′ Q ? ( S 2 , a ′ ) + 0.4 × max ? a ′ Q ? ( S 3 , a ′ ) + 0.4 × max ? a ′ Q ? ( S 4 , a ′ ) Q^*(S_4,pub)=1+0.2 \times \max_{a'}Q^*(S_2,a')+0.4\times\max_{a'} Q^*(S_3,a')+0.4\times\max_{a'}Q^* (S_4,a') Q?(S4?,pub)=1+0.2×maxa?Q?(S2?,a)+0.4×maxa?Q?(S3?,a)+0.4×maxa?Q?(S4?,a)
      max ? a ′ Q ? ( S 4 , a ′ ) \max_{a'} Q^*(S_4,a') maxa?Q?(S4?,a),假设已知为最大值。
    • max ? Q ? ( S 4 , a ′ ) \max Q^*(S_4,a') maxQ?(S4?,a) = 10 =10 =10
    • Q ? ( S 3 , s t u d y ) = ? 2 + Q^*(S_3,study)=-2+ Q?(S3?,study)=?2+ max ? a ′ Q ? ( S 4 , a ′ ) \max_{a'}Q^*(S_4,a') maxa?Q?(S4?,a) = ? 2 + 10 = 8 =-2+10=8 =?2+10=8
    • max ? Q ? ( S 3 , a ′ ) = m a x ( 8 , 0 ) = 8 \max Q^*(S_3,a')=max(8,0)=8 maxQ?(S3?,a)=max(8,0)=8
    • Q ? ( S 2 , s t u d y ) = ? 2 + Q^*(S_2,study)=-2+ Q?(S2?,study)=?2+ max ? a ′ ( S 3 , a ′ ) \max_{a'}(S_3,a') maxa?(S3?,a) = ? 2 + 8 = 6 =-2+8=6 =?2+8=6
    • Q ? ( S 3 , p u b ) = ? 1 + max ? a ′ Q ? ( S 1 , a ′ ) Q^*(S_3,pub)=-1+\max_{a'}Q^*(S_1,a') Q?(S3?,pub)=?1+maxa?Q?(S1?,a)
      max ? a ′ Q ? ( S 2 , a ′ ) \max_{a'}Q^*(S_2,a') maxa?Q?(S2?,a)假设已知为最大值。
    • max ? Q ? ( S 2 , a ′ ) \max Q^*(S_2,a') maxQ?(S2?,a) = 6 =6 =6
    • Q ? ( S 1 , F a b ) = ? 1 + max ? a ′ ( S 1 , a ′ ) Q^*(S_1,Fab)=-1+\max_{a'}(S_1,a') Q?(S1?,Fab)=?1+maxa?(S1?,a)
    • Q ? ( S 1 , q u i t ) = 0 + Q^*(S_1,quit)=0+ Q?(S1?,quit)=0+ max ? a ′ ( S 2 , a ′ ) \max_{a'}(S_2,a') maxa?(S2?,a) = 6 =6 =6
      max ? a ′ Q ? ( S 1 , a ′ ) \max_{a'}Q^*(S_1,a') maxa?Q?(S1?,a)假设已知为最大值。
    • max ? Q ? ( S 1 , a ′ ) \max Q^*(S_1,a') maxQ?(S1?,a) = 6 =6 =6
  2. 倒退逐步验证每一个假设
    • Q ? ( S 1 , F a b ) = ? 1 + max ? a ′ ( S 1 , a ′ ) = 5 < max ? Q ? ( S 1 , a ′ ) = 6 Q^*(S_1,Fab)=-1+\max_{a'}(S_1,a')=5<\max Q^*(S_1,a')=6 Q?(S1?,Fab)=?1+maxa?(S1?,a)=5<maxQ?(S1?,a)=6,假设成立
    • Q ? ( S 3 , p u b ) = ? 1 + max ? a ′ Q ? ( S 1 , a ′ ) = 5 < max ? Q ? ( S 3 , a ′ ) = 10 Q^*(S_3,pub)=-1+\max_{a'}Q^*(S_1,a')=5<\max Q^*(S_3,a')=10 Q?(S3?,pub)=?1+maxa?Q?(S1?,a)=5<maxQ?(S3?,a)=10,假设成立
    • Q ? ( S 4 , p u b ) = 1 + 0.2 × max ? a ′ Q ? ( S 2 , a ′ ) + 0.4 × max ? a ′ Q ? ( S 3 , a ′ ) + 0.4 × max ? a ′ Q ? ( S 4 , a ′ ) = 1 + 0.2 × 6 + 0.4 × 8 + 0.4 × 10 = 9.4 < max ? Q ? ( S 4 , a ′ ) = 10 \begin{aligned}Q^*(S_4,pub)&=1+0.2 \times \max_{a'}Q^*(S_2,a')+0.4\times\max_{a'} Q^*(S_3,a')+0.4\times\max_{a'}Q^* (S_4,a')\\&=1+0.2\times 6+0.4\times 8+0.4 \times 10\\&=9.4< \max Q^*(S_4,a')=10 \end{aligned} Q?(S4?,pub)?=1+0.2×amax?Q?(S2?,a)+0.4×amax?Q?(S3?,a)+0.4×amax?Q?(S4?,a)=1+0.2×6+0.4×8+0.4×10=9.4<maxQ?(S4?,a)=10?,假设成立

V ? ( s ) V^*(s) V?(s)的迭代过程:

  1. 方块是终点,所以迭代的初始值函数为0
    • V ? ( e n d ) = 0 V^*(end)=0 V?(end)=0
    • V ? ( S 4 ) = max ? { V^*(S4)=\max\{ V?(S4)=max{ 10 + 0 10+0\quad 10+0, 1 + 0.2 × V ? ( S 2 ) + 0.4 × V ? ( S 3 ) + 0.4 × V ? ( S 4 ) } 1+0.2\times V^*(S_2)+0.4\times V^*(S_3)+0.4\times V^*(S_4) \} 1+0.2×V?(S2?)+0.4×V?(S3?)+0.4×V?(S4?)}=10(假设已知为最大值。)
    • V ? ( S 3 ) = max ? { V*(S_3)=\max\{ V?(S3?)=max{ 0 + 0 0+0 \quad 0+0, ? 2 + V ? ( S 4 ) } -2+V^*(S_4)\} ?2+V?(S4?)}=8
    • V ? ( S 2 ) = max ? { V^*(S_2)=\max\{ V?(S2?)=max{ ? 1 + V ? ( S 1 ) -1+V^*(S_1) \quad ?1+V?(S1?), ? 2 + V ? ( S 3 ) } -2+V^*(S_3)\} ?2+V?(S3?)}$=6(假设已知为最大值。)
    • V ? ( S 1 ) = max ? { V^*(S_1)=\max\{ V?(S1?)=max{-1+V^*(S_1)\quad$, 0 + V ? ( S 2 ) 0+V^*(S_2) 0+V?(S2?)}=6(假设已知为最大值。)
  2. 经验证,三个假设都成立。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-29 11:38:10  更:2021-07-29 11:39:41 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 9:58:37-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码