[人工智能] 强化学习记录—

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 强化学习记录——各类算法 -> 正文阅读

[人工智能]强化学习记录——各类算法

一、Q-Learning

一、Q-Learning

(Q：状态动作价值)

1.value-based、off-policy

2.算法思想：将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

3.更新公式：

?Q表格更新：重复执行多次episode，直至：Q矩阵达到收敛或无变化或变化很小、或平稳分布。

二、Sarsa

（该算法由于更新一次动作值函数需要用到 5 个量(s,a,r,s′,a′)，所以被称为 Sarsa 算法）

1.value based、on-policy

2.算法思想：Sarsa 算法与 Q-Learning 算法相似，也是利用 Q 表来选择动作，唯一不同的是两者 Q 表的更新策略不同。

3.更新公式：

三、DQN

1.value based、off-policy

2.算法思想：神经网络+Q-Learning

3.更新公式：

4.DQN两大创新点：

（1）经验回放：off-policy，解决样本关联性

（2）固定Q目标：Q现实：之前的参数；Q估计：最新参数，解决非平稳性

从而引出两个神经网络：一个用于记忆库（重复学习）、一个用于暂时冻结Qtarget参数（切断相关性）

四、Policy Gradients

1.policy-based

2.算法思想：基于策略Policy来做梯度下降从而优化我们的模型（为使Agent能够尽量执行较好的动作，需要使用执行了该动作后得到的反馈reward来判定本次的策略好坏，也就是说我们想要训练我们的Agent倾向于做出那些reward较高的动作。）

3.更新公式：

4.value-based与policy-based

五、Actor-Critic

1.算法思想：结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法。Actor基于概率选行为，Critic基于Actor的行为评判行为的得分，Actor再根据Critic的评分修改选行为的概率。

（1）优势：可进行单步更新，比传统的PolicyGradient更快。

（2）劣势：取决于Ctric的价值判断，再加上Actor的更新，更难收敛。

2.改进：Actor-Critic+DQN得到DDPG，成功解决了在连续动作上预测学不到东西的问题。

六、DDPG

(Deep Deterministic Policy Gradient)

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-10-07 13:51:15 更:2021-10-07 13:53:40

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/28 17:42:43-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码