IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient) -> 正文阅读

[人工智能]强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)

强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)

1. 策略学习

Policy Network

  • 通过策略网络近似策略函数
    π ( a ∣ s t ) ≈ π ( a ∣ s t ; θ ) π(a|s_t)≈π(a|s_t;\theta) π(ast?)π(ast?;θ)
  • 状态价值函数及其近似
    V π ( s t ) = ∑ a π ( a ∣ s t ) Q π ( s t , a ) V_π(s_t)=\sum_aπ(a|s_t)Q_π(s_t,a) Vπ?(st?)=a?π(ast?)Qπ?(st?,a)
    V ( s t ; θ ) = ∑ a π ( a ∣ s t ; θ ) ? Q π ( s t , a ) V(s_t;\theta)=\sum_aπ(a|s_t;\theta)·Q_π(s_t,a) V(st?;θ)=a?π(ast?;θ)?Qπ?(st?,a)
  • 策略学习最大化的目标函数
    J ( θ ) = E S [ V ( S ; θ ) ] J(\theta)=E_S[V(S;\theta)] J(θ)=ES?[V(S;θ)]
  • 依据策略梯度上升进行
    θ ← θ + β ? ? V ( s ; θ ) ? θ \theta\gets\theta+\beta·\frac{\partial V(s;\theta)}{\partial \theta} θθ+β??θ?V(s;θ)?

2. 策略梯度

Policy Gradient

? V ( s ; θ ) θ = ∑ a Q π ( s , a ) ? π ( a ∣ s ; θ ) ? θ = ∫ a Q π ( s , a ) ? π ( a ∣ s ; θ ) ? θ = ∑ a π ( a ∣ s ; θ ) ? Q π ( s , a ) ? l n [ π ( a ∣ s ; θ ) ] ? θ = E A ~ π ( a ∣ s ; θ ) [ Q π ( s , A ) ? l n [ π ( A ∣ s ; θ ) ] ? θ ] ≈ Q π ( s t , a t ) ? l n [ π ( a t ∣ s t ; θ ) ] ? θ \frac{\partial V(s;\theta)}{\theta}=\sum_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\int_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\sum_a{\pi(a|s;\theta)·Q_\pi(s,a)\frac{\partial ln[\pi(a|s;\theta)]}{\partial\theta}}\\=E_{A\sim\pi(a|s;\theta)}[Q_\pi(s,A)\frac{\partial ln[\pi(A|s;\theta)]}{\partial\theta}]\\≈Q_\pi(s_t,a_t)\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta} θ?V(s;θ)?=a?Qπ?(s,a)?θ?π(as;θ)?=a?Qπ?(s,a)?θ?π(as;θ)?=a?π(as;θ)?Qπ?(s,a)?θ?ln[π(as;θ)]?=EAπ(as;θ)?[Qπ?(s,A)?θ?ln[π(As;θ)]?]Qπ?(st?,at?)?θ?ln[π(at?st?;θ)]?

  • 观测得到状态
    s t s_t st?
  • 依据策略函数随机采样动作
    a t = π ( a t ∣ s t ; θ ) a_t = \pi(a_t|s_t;\theta) at?=π(at?st?;θ)
  • 计算价值函数
    q t = Q π ( s t , a t ) q_t = Q_\pi(s_t,a_t) qt?=Qπ?(st?,at?)
  • 求取策略网络的梯度
    d θ , t = ? l n [ π ( a t ∣ s t ; θ ) ] ? θ ∣ θ = θ t d_{\theta,t}=\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta}|\theta=\theta_t dθ,t?=?θ?ln[π(at?st?;θ)]?θ=θt?
  • 计算近似的策略梯度
    g ( a t , θ t ) = q t ? d θ , t g(a_t,\theta _t)=q_t·d_{\theta,t} g(at?,θt?)=qt??dθ,t?
  • 更新策略网络
    θ t + 1 = θ t + β ? g ( a t , θ t ) \theta_{t+1}=\theta_t+\beta·g(a_t,\theta_t) θt+1?=θt?+β?g(at?,θt?)

3. 案例

目前没有好的方法近似动作价值函数,则未撰写案例。

by CyrusMay 2022 03 29

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-30 18:23:58  更:2022-03-30 18:25:43 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 2:12:19-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码