| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 强化学习:(四)Q-learning DQN DDQN是什么? -> 正文阅读 |
|
[人工智能]强化学习:(四)Q-learning DQN DDQN是什么? |
一、Q-learning强化学习的一个episode: 强化学习的最终目标:当我处于 s t s_t st?状态,我应该采取从长远来看最好的动作 a t a_t at? 如何实现这个目标?如果 s t s_t st??状态下,每个可选动作的评分是已知的,我只需要选最高分的动作;但实际上评分是未知的,我需要对它进行估计。 动作评分的定义 从动态规划的角度来看,如果某个动作可以导向胜利的状态,那么这个动作就得分最高;如果某个动作虽然不能直接胜利,但可以间接导向最容易取胜的状态,那么这个动作就是当前可选动作中得分最高的。如图,橙色的通道是最优通道。 因此,评估一个动作的好坏要看他的长远利益。如何衡量长远的利益?对于每个
(
s
t
,
a
t
)
(s_t,a_t)
(st?,at?)组合,都给出一个奖励
r
t
r_t
rt?,那么某个
(
s
t
,
a
t
)
(s_t,a_t)
(st?,at?)?组合的回报定义为: 对
U
t
U_t
Ut?,可以把它写成: 用(6)得到的
Q
π
(
s
t
,
a
t
,
w
t
)
Q_\pi(s_t,a_t,w_t)
Qπ?(st?,at?,wt?)??是比(5)的
Q
π
(
s
t
,
a
t
,
w
t
)
Q_\pi(s_t,a_t,w_t)
Qπ?(st?,at?,wt?)??更准确的,我们称其为TD target,它表示利用已知信息得到的对
Q
π
(
s
t
,
a
t
)
Q_\pi(s_t,a_t)
Qπ?(st?,at?)?????最准确的估计值:
二、Deep Q NetworksDQN是 a multi-layered neural network,在Q-learning的基础上增加了target network和experience replay。 target network与在线网络几乎相同,只不过参数不是随时更新的,而是每隔τ步更新一次并保持。DQN用的target表示: experience replay是指,观测到的状态转移会被存储一段时间,并从这个存储库中均匀采样,以更新网络。 target network和experience replay都显著提高了算法的性能。 三、double Q-learning在Q-learning和DQN中,”选择下一步动作时使用的评价函数的参数“与”评价所有备选动作时使用的评价函数的参数“是相同的,也就是说,我根据现有的对备选动作的打分值,选出一个最好的,然后我再评估当前的动作价值,依然得到一个很高的分数。这样做存在的问题是,我可能会高估某个动作的分数,而我一旦高估他,我在选动作的时候就会选它,下次打分的时候依然高估,导致一旦出现”高估“就会影响我后面的状态轨迹。 为了避免这种影响,设置两套参数,把”打分“和”选动作“的过程分开。 为了便于对比,先把Q-learning的(6)写成: 而double Q-learning中,target写成: 选动作的时候用的是里面的 w t w_t wt?,它是在线的参数;给选出来的动作再次打分的时候用的是外面的 w t ′ w_t' wt′?。每次更新的时候,更新的是 w t w_t wt?,如果想更新 w t ′ w_t' wt′?,需要交换 w t w_t wt?和 w t ′ w_t' wt′?的地位。 形象的理解:某选秀节目分两组评委,第一组给选手打分并选出小组冠军,然后第二组评委再给他重新打分,这个分数作为选手的分数被记录。两组评委过一段时间交换一次。 参考资料[1] 深度强化学习(全) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/17 22:19:02- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |