IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 基于Pytorch的强化学习(DQN)之 Overestimation -> 正文阅读

[人工智能]基于Pytorch的强化学习(DQN)之 Overestimation

目录

1. 引言

2. Overestimation

2.1 Maximization

2.2 Bootstrapping

3. Solution

3.1 Target Network

3.2 Double DQN


1. 引言

我们现在来介绍在TD算法中出现的一类问题:高估(overestimation)。这个问题会极大地影响TD算法的准确性,下面来具体介绍高估问题和其解决方案。

2. Overestimation

我们所说的高估指的是对TD target y_t=r_t+\gamma \underset{a}{max}Q(s_{t+1},a;w) 的高估,下面是两种高估的产生原因。

2.1 Maximization

第一个原因就是最大化(maximization)导致的高估,问题就出在?\underset{a}{max}Q(s_{t+1},a;w)?的max上,下面我们来证明:

我们设真实的动作价值组成的集合为为?P=\left \{ x(a_1),x(a_2),...,x(a_n) \right \}?神经网络预测的动作价值组成的集合为为?Q=\left \{ Q(s,a_1;w),Q(s,a_2;w),...,Q(s,a_n;w) \right \},由于这是预测值,其中不可避免的会比真实值多出一些噪声,我们那么易得P\subseteq Q,那么自然就有E[max_iQ_i]\geq max_i(x_i)

?于是?\underset{a}{max}Q(s_{t+1},a;w)?总是要比真实值要大些,就是被高估了。

2.2 Bootstrapping

第另一种高估的产生原因是自提(bootstrapping)字面意思是我们用手提自己的鞋子以达到将自己提起来的目的,这在真实世界中是违背物理规律的,但是在强化学习中有另一种含义:

我们知道TD target是用来我们更新神经网络?Q(s_t,a_t;w)的目标值,由于Maximization我们知道\underset{a}{max}Q(s_{t+1},a;w)会不可避免地被高估,那么由于TD target中含有这一项,那么Q(s_t,a_t;w)就也会被高估,这样DQN中的高估变得更加严重。

?

?有点像正反馈调节。

3. Solution

下面介绍两种有效的解决方法

3.1 Target Network

第一种方法是再加入一个假的动作价值网络Target network?Q(s_t,a;w^-)?他的参数与真实的动作价值网络不相同,但是结构一样,这个网络不用于指导agent进行决策,它的作用有两个:一个是选择最优动作a^*=argmaxQ(s_{t+1},a;w^-)?另一个是计算TD target?y_t=r_t+\gamma \underset{a}{max}Q(s_{t+1},a^*,w^-)?,这个网络的参数也需要更新,但是不是一步一更新,而是隔几步更新一次,可以拷贝真实网络的参数也可以将真实网络的参数和原来的参数求平均后赋值即可,其本质上相当于滞后更新以抵消bootstrapping效应,但是maximization的问题没有解决。

3.2 Double DQN

另一种方法是也是加入一个Target network?Q(s_t,a;w^-)?但是我们不让它两步都做,我们依然使用真实网络进行选择最优动作?a^*=argmaxQ(s_{t+1},a,w)?,再使用Target network进行计算TD target

y_t=r_t+\gamma Q(s_{t+1},a^*,w^-),就是这个区别减小了maximization效应,下面证明:

显然有?Q(s_{t+1},a^*,w^-)\leq \underset{a}{max}Q(s_{t+1},a;w^-)?,我们便得到最大化的程度减小,因此抵消部分最大化的影响,但是要注意的是,我们并没有完全消除maximization效应,因为Target network的参数随着真实网络变化,所以仍然存在最大化影响,只是消减了许多。

?一下是原始更新神经网络的方法和两种改进方法的对比:

?

?

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-01 23:22:47  更:2022-04-01 23:27:02 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 0:47:45-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码