IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 强化学习记录——各类算法 -> 正文阅读

[人工智能]强化学习记录——各类算法

目录

一、Q-Learning

二、Sarsa

三、DQN

四、Policy Gradients

五、Actor-Critic

六、DDPG


一、Q-Learning

(Q:状态动作价值)

1.value-based、off-policy

2.算法思想:将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。

3.更新公式:

?Q表格更新:重复执行多次episode,直至:Q矩阵达到收敛或无变化或变化很小、或平稳分布。

二、Sarsa

(该算法由于更新一次动作值函数需要用到 5 个量(s,a,r,s′,a′),所以被称为 Sarsa 算法)

1.value based、on-policy

2.算法思想:Sarsa 算法与 Q-Learning 算法相似,也是利用 Q 表来选择动作,唯一不同的是两者 Q 表的更新策略不同。

3.更新公式:

三、DQN

1.value based、off-policy

2.算法思想:神经网络+Q-Learning

3.更新公式:

4.DQN两大创新点:

(1)经验回放:off-policy,解决样本关联性

(2)固定Q目标:Q现实:之前的参数;Q估计:最新参数,解决非平稳性

从而引出两个神经网络:一个用于记忆库(重复学习)、一个用于暂时冻结Qtarget参数(切断相关性)

四、Policy Gradients

1.policy-based

2.算法思想:基于策略Policy来做梯度下降从而优化我们的模型(为使Agent能够尽量执行较好的动作,需要使用执行了该动作后得到的反馈reward来判定本次的策略好坏,也就是说我们想要训练我们的Agent倾向于做出那些reward较高的动作。)

3.更新公式:

4.value-based与policy-based

五、Actor-Critic

1.算法思想:结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法。Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,Actor再根据Critic的评分修改选行为的概率。

(1)优势:可进行单步更新,比传统的PolicyGradient更快。

(2)劣势:取决于Ctric的价值判断,再加上Actor的更新,更难收敛。

2.改进:Actor-Critic+DQN得到DDPG,成功解决了在连续动作上预测学不到东西的问题。

六、DDPG

(Deep Deterministic Policy Gradient)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-07 13:51:15  更:2021-10-07 13:53:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:35:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码