[人工智能] 强化学习之DDQN

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 强化学习之DDQN -> 正文阅读

[人工智能]强化学习之DDQN

知识基础DQN参考我的博文：https://tianjuewudi.gitee.io/2021/07/16/qiang-hua-xue-xi-shi-jian-jiao-xue/#toc-heading-19

DQN复习

? 我们利用神经网络来代替表格法，我们可以输入S并输出多个Q，每个Q对应一个A。神经网络只需要储存有限的网络参数，我们的任务就是不断调整这些参数，使得输入输出符合我们的预期，而且状态可以泛化，相似的状态输出也差不多。
? DQN有两大创新点，一个是经验回放，一个是固定Q目标。经验回放是指探索的数据特征形成一组组数据，并且可以随机打乱，使得神经网络可以重复多次地进行学习。这样可以打乱样本的关联性，而且能提高样本利用率。固定Q目标是指我们把Q值固定一段时间来训练参数，我们需要另外一个一样的网络（target Q网络），Q网络的作用是产生一个Q预测值，直接用来决策。而target Q是产生一个Q目标值，我们通过这个目标值的 $Q_{t+1}$ 计算Q网络 $Q_{t}$ ，target Q往往固定一段时间来使Q网络得到充分训练。

DQN的缺陷

使用了 max 操作，Q-learning、DQN算法都会过高估计(overestimate)Q值。

DDQN与DQN的异同

DDQN和DQN一样，也有一样的两个Q网络结构。下面是DQN的更新公式
$Q_m(S_{t},a_t) = Q_m(S_{t},a_t)+ \eta * (R_{t+1} + γ \max_a Q_t(S_ {t+1} ,a) - Q_m(s_t,a_t))$
DDQN采用的是一种使更新公式更稳定的方法：
$a_m = arg \max_a Q_m(s_{t+1},a)$

$Q_m(S_{t},a_t) = Q_m(S_{t},a_t)+ \eta * (R_{t+1} + γ Q_t(S_ {t+1} ,a_m) - Q_m(s_t,a_t))$

也就是说DDQN与DQN的不同之处在于用来更新Q网络的Target Q中 $Q(S_{t+1},a)$ 的选择方式，DQN直接用Target Q网络中t+1时刻可选Q的最大值用来更新，而DDQN用的是根据Q网络t+1时刻的最大Q来选择对应的action，然后用这个action来对应决定Target Q网络中的Q值，这样更新的Q值就会小于等于DQN更新的Q值，改善overestimate的问题。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-08-30 12:03:49 更:2021-08-30 12:05:55

360图书馆购物三丰科技阅读网日历万年历 2025年11日历

-2025/11/24 12:44:58-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码