IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 基于Pytorch的强化学习(DQN)之 REINFORCE with baseline -> 正文阅读

[人工智能]基于Pytorch的强化学习(DQN)之 REINFORCE with baseline

目录

1. 引言

2. 估计

2.1 估计期望

2.2 估计价值函数

2.3 估计状态函数

3. 算法

3.1 策略网络

3.2 价值网络


1. 引言

我们上次讲到了baseline的基本概念,今天来讲讲使用到baseline的常用算法:REINFORCE

2. 估计

我们之前得到了状态价值函数的梯度表达式 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))]

我们希望使其梯度上升,现状就需要解决这么几个难题:等式右侧是一个期望表达式,不好计算;含有未知的 Q_{\pi}(s_t,a_t) ;含有未知的?V_{\pi}(s_t),现在我们来解决这几个问题。

2.1 估计期望

首先解决期望问题,我们上次引入了随机梯度函数?g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))

根据?a\sim \pi(a|s)?抽取?a_t?使用蒙特卡罗算法近似这个期望,则?\frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}\approx g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t)),这样就解决了期望的问题。

2.2 估计价值函数

我们虽然解决了期望的问题,但是等式右侧还有?Q_{\pi}(s_t,a_t)?,由于 Q_{\pi}(s_t,a_t)?是return的期望,于是我们可以考虑使用观测到的return来近似?Q_{\pi}(s_t,a_t),在一把对局结束之后我们获得一个trajectory?(s_1,a_1,r_1,...,s_n,a_n,r_n),我们就可以计算?Q_{\pi}(s_t,a_t)\approx u_t=\sum_{i=t}^{n}\gamma^{i-t}r_i,这样一个未知量就被解决了,这种方法也是蒙特卡罗算法。

2.3 估计状态函数

最后一步就是近似?V_{\pi}(s_t),这里我们使用神经网络?v(s;w)?来近似状态价值函数?V_{\pi}(s),即?V_{\pi}(s)\approx v(s;w)

3. 算法

我们的算法中出现了两个神经网络,于是我们需要分别更新两个网络的参数

3.1 策略网络

第一个网络近似的是策略函数?\pi(a|s)??状态价值函数 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}?的梯度用?\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(u_t- v(s;w))?近似。令?u_t- v(s;w)=-\delta_t

我们需要价值函数变大,所以我们使用梯度上升来更新策略网络\theta\leftarrow \theta-\beta\,\delta_t\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}

3.2 价值网络

第二个网络就是我们引入近似?V_{\pi}(s)?的神经网络?v(s;w)?

?由于?V_{\pi}(s_t)=E[U_t|s_t]\approx u_t?我们要使?v(s;w)\rightarrow V_{\pi}(s),只需要?v(s;w)\rightarrow u_t,也就是减小

\delta_t=v(s;w)-u_t,于是我们定义loss函数?\frac{\delta^2}{2}?并做梯度下降?w\leftarrow w-\alpha\delta_t\,\frac{\partial \,v(s_t;w)}{\partial \,w}

?

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-07 22:41:41  更:2022-04-07 22:42:00 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/8 4:19:13-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码