| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 基于Pytorch的强化学习(DQN)之 Overestimation -> 正文阅读 |
|
[人工智能]基于Pytorch的强化学习(DQN)之 Overestimation |
目录 1. 引言我们现在来介绍在TD算法中出现的一类问题:高估(overestimation)。这个问题会极大地影响TD算法的准确性,下面来具体介绍高估问题和其解决方案。 2. Overestimation我们所说的高估指的是对TD target 的高估,下面是两种高估的产生原因。 2.1 Maximization第一个原因就是最大化(maximization)导致的高估,问题就出在??的上,下面我们来证明: 我们设真实的动作价值组成的集合为为??神经网络预测的动作价值组成的集合为为?,由于这是预测值,其中不可避免的会比真实值多出一些噪声,我们那么易得,那么自然就有 ?于是??总是要比真实值要大些,就是被高估了。 2.2 Bootstrapping第另一种高估的产生原因是自提(bootstrapping)字面意思是我们用手提自己的鞋子以达到将自己提起来的目的,这在真实世界中是违背物理规律的,但是在强化学习中有另一种含义: 我们知道TD target是用来我们更新神经网络?的目标值,由于Maximization我们知道会不可避免地被高估,那么由于TD target中含有这一项,那么就也会被高估,这样DQN中的高估变得更加严重。 ? ?有点像正反馈调节。 3. Solution下面介绍两种有效的解决方法 3.1 Target Network第一种方法是再加入一个假的动作价值网络Target network??他的参数与真实的动作价值网络不相同,但是结构一样,这个网络不用于指导agent进行决策,它的作用有两个:一个是选择最优动作?另一个是计算TD target??,这个网络的参数也需要更新,但是不是一步一更新,而是隔几步更新一次,可以拷贝真实网络的参数也可以将真实网络的参数和原来的参数求平均后赋值即可,其本质上相当于滞后更新以抵消bootstrapping效应,但是maximization的问题没有解决。 3.2 Double DQN另一种方法是也是加入一个Target network??但是我们不让它两步都做,我们依然使用真实网络进行选择最优动作??,再使用Target network进行计算TD target ,就是这个区别减小了maximization效应,下面证明: 显然有??,我们便得到最大化的程度减小,因此抵消部分最大化的影响,但是要注意的是,我们并没有完全消除maximization效应,因为Target network的参数随着真实网络变化,所以仍然存在最大化影响,只是消减了许多。 ?一下是原始更新神经网络的方法和两种改进方法的对比: ? ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/9 0:47:45- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |