| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 强化学习记录——各类算法 -> 正文阅读 |
|
[人工智能]强化学习记录——各类算法 |
目录 一、Q-Learning(Q:状态动作价值) 1.value-based、off-policy 2.算法思想:将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。 3.更新公式: ?Q表格更新:重复执行多次episode,直至:Q矩阵达到收敛或无变化或变化很小、或平稳分布。 二、Sarsa(该算法由于更新一次动作值函数需要用到 5 个量(s,a,r,s′,a′),所以被称为 Sarsa 算法) 1.value based、on-policy 2.算法思想:Sarsa 算法与 Q-Learning 算法相似,也是利用 Q 表来选择动作,唯一不同的是两者 Q 表的更新策略不同。 3.更新公式: 三、DQN1.value based、off-policy 2.算法思想:神经网络+Q-Learning 3.更新公式: 4.DQN两大创新点: (1)经验回放:off-policy,解决样本关联性 (2)固定Q目标:Q现实:之前的参数;Q估计:最新参数,解决非平稳性 从而引出两个神经网络:一个用于记忆库(重复学习)、一个用于暂时冻结Qtarget参数(切断相关性) 四、Policy Gradients1.policy-based 2.算法思想:基于策略Policy来做梯度下降从而优化我们的模型(为使Agent能够尽量执行较好的动作,需要使用执行了该动作后得到的反馈reward来判定本次的策略好坏,也就是说我们想要训练我们的Agent倾向于做出那些reward较高的动作。) 3.更新公式: 4.value-based与policy-based 五、Actor-Critic1.算法思想:结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法。Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,Actor再根据Critic的评分修改选行为的概率。 (1)优势:可进行单步更新,比传统的PolicyGradient更快。 (2)劣势:取决于Ctric的价值判断,再加上Actor的更新,更难收敛。 2.改进:Actor-Critic+DQN得到DDPG,成功解决了在连续动作上预测学不到东西的问题。 六、DDPG(Deep Deterministic Policy Gradient) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 10:35:28- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |